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内 容 提 要 


这 是 一 本 关于 现代 操作 系统 的 书 。 全 书 围绕 虚拟 化 、 并 发 和 持久 性 这 3 
个 主要 概念 展开 ， 介 绍 了 所 有 现代 系统 的 主要 组 件 〈 包 括 调度 、 虚 拟 
内 存 管理 、 磁 盘 和 I/0 子 系统 、 文 件 系 统 ) 。 


本 书 共 50 章 ， 分 为 3 个 部 分 ， 分 别 讲述 虚拟 化 、 并 发 和 持久 性 的 相关 内 
容 。 本 书 大 部 分 章节 均 先 提出 特定 的 问题 ， 然 后 通过 书 中 介绍 的 技 
术 、 算 法 和 思想 来 解决 这 些 问题 。 作 者 以 对 话 形式 引入 所 介绍 的 主题 
概念 ， 行 文 底 谐 幽默 却 又 著 必 入 里 ， 力 求 帮助 读者 理解 操作 系统 中 虚 
拟 化 、 并 发 和 持久 性 的 原理 。 


本 书 内 容 全 面 ， 并 给 出 了 真实 可 运行 的 代码 (而 非 伪 代码 ， ， 还 提供 
了 相应 的 练习 ， 适 合 高 等 院 校 相关 专业 教师 教学 和 高 校 学 生 自 学 。 
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致 本 书 读者 


欢迎 阅读 本 书 ! 我 们 希望 你 阅读 本 书 时 ， 惑 像 我 们 撰写 它 时 一 样 开 
心 。 本 书 的 英文 书 名 为 《0perating Systems:Three Easy Pieces》， 
这 显然 是 向 理 查 德 。 费 曼 (Richard Feynman ) 针对 物理 学 主题 创作 
的 、 最 了 不 起 的 一 套 讲义 [F96] 致 敬 。 虽 然 本 书 不 能 达到 这 位 著名 物理 
0 但 也 许 足 够 让 你 了 解 什么 是 操作 系统 (以 及 更 一 
以 日 j 泵 5 ) o 


本 书 围绕 3 个 主题 元 素 展 开讲 解 : 虚拟 化 (virtualization) 、 并 发 
(concurrency) 和 持久 性 (persistence) 。 对 于 这 些 概 念 的 讨论 ， 
最 终 延 伸 到 讨论 操作 系统 所 做 的 大 多 数 重要 事情 。 希 望 你 在 这 个 过 程 
中 体会 到 一 些 乐 趣 。 学 习 新 事物 很 有 趣 ， 对 吧 ? 


每 个 主要 概念 在 若干 章节 中 加 以 阐释 ， 其 中 大 部 分 革 节 都 提出 了 一 个 
特定 的 问题 ， 然 后 展示 了 解决 它 的 方法 。 这 些 章节 很 简短 ， 尝 试 ( 尽 
可 能 地 ) 引用 作为 这 些 想法 真正 来 源 的 源 材 料 。 我 们 写 这 本 书 的 目的 
之 一 就 是 厘清 操作 系统 的 发 展 脉络 ， 因 为 我 们 认为 这 有 助 于 学 生 更 清 
楚 地 理解 过 去 是 什么 、 现 在 是 什么 、 将 来 会 是 什么 。 在 这 种 情况 下 ， 
了 解 香肠 的 制作 方法 几乎 与 了 解 香肠 的 优点 一 样 重要 。 


我 们 在 整 本 书 中 采用 了 几 种 结构 ， 值 得 在 这 里 介绍 一 下 。 

无 论 何 时 ， 在 试图 解决 问题 时 ， 我 们 首先 要 说 明 最 重要 的 问题 是 什 
么 。 我 们 在 书 中 明确 提出 关键 问题 (crux of the problem) ， 并 希望 
通过 本 书 其 余部 分 提出 的 技术 、 算 法 和 思想 来 解决 。 


在 许多 地 方 ， 我 们 将 通过 显示 一 段 时 间 内 的 行为 来 解释 系统 的 工作 原 
理 。 这 些 时 间 线 (timeline ) 是 理解 的 本 质 。 如 果 你 知道 会 发 生 什 

















么 ， 例 如 ， 当 进程 出 现 页 故障 时 ， 你 就 可 以 真正 了 解 虚 拟 内 存 的 运行 
方式 。 如 果 你 理解 日 志文 件 系统 将 块 写 入 磁盘 时 发 生 的 情况 ， 就 已 经 
迈 出 了 掌握 存储 系统 的 第 一 步 。 


整 本 书 中 有 许多 “补充 ”和 “提示 ”， 为 主线 讲解 增添 了 一 些 趣味 
性 。“ 补 充 ” 倾 问 于 讨论 与 主要 文本 相关 的 内 容 《〈 但 可 能 不 是 必要 
的 ) ; “提示 ”往往 是 一 般 经 验 ， 可 以 应 用 于 所 构建 的 系统 。 


在 整 本 书 中 ， 我 们 使 用 最 古老 的 教学 方法 之 一 一 一 对 话 

(dialogue) 。 这 些 对 话 用 于 介绍 主要 的 主题 概念 ， 并 不 时 地 复习 这 
些 内 容 。 这 也 让 我 们 得 以 用 更 幽默 的 方式 写作 。 好 吧 ， 你 觉得 它们 是 
有 用 还 是 幽默 ， 完 全 是 另 一 回 事 。 


在 每 一 个 主要 部 分 的 开头 ， 我 们 将 首先 呈现 操作 系统 提供 的 抽象 
(abstraction) ， 然 后 在 后 续 章节 中 介绍 提供 抽象 所 需 的 机 制 、 策 略 
和 其 他 支持 。 抽 象 是 计算 机 科学 各 个 方面 的 基础 ， 因 此 它 在 操作 系统 
中 也 是 必 不 可 少 的 。 


在 所 有 的 章节 中 ， 我 们 尝试 使 用 可 能 的 真实 代码 (real code) ， 而 非 
伪 代 码 (pseudocode ) 。 因 此 书 中 几乎 所 有 的 示例 ， 你 应 该 能 够 目 己 
输入 并 运行 它们 。 在 真实 系统 上 运行 真实 代码 是 了 解 操作 系统 的 最 佳 
方式 ， 因 此 建议 你 尽 可 能 这 样 做 。 


在 本 书 的 各 个 部 分 ， 我 们 提供 了 一 些 作 业 (homework) ， 确 保 你 进 一 
步 理解 书 中 的 内 容 。 其 中 许多 作业 都 是 对 操作 系统 的 一 些 模 拟 
(simulation) 程序 。 你 应 该 下 载 作业 ， 并 运行 它们 ， 以 此 来 测验 自 
己 。 作 业 模 拟 程 序 具 有 以 下 特征 : 通过 给 它们 提供 不 同 的 随机 种 子 ， 
你 可 以 产生 几乎 无 限 的 问题 ， 也 可 以 让 模拟 程序 为 你 解决 问题 。 
此 ， 你 可 以 一 次 又 一 次 地 目测 ， 直 至 很 好 地 理解 了 这 些 知识 。 


本 书 最 重要 的 附录 是 一 组 项 目 (project) ， 可 供 你 通过 设计 、 测 斌 和 
实现 自己 的 代码 ， 来 了 解 真实 系统 的 工作 原理 。 所 有 项 目 〈( 以 及 上 面 
提 到 的 代码 示例 ) 都 是 使 用 C 编 程 语言 (C programming language ) 
[KR88] 编写 的 。C 是 一 种 简单 而 强大 的 语言 ， 是 大 多 数 操 作 系统 的 基 
础 ， 因 此 值得 添加 到 你 的 工具 库 中 。 附 录 中 含有 两 种 类 型 的 项 目 〈( 请 
参阅 在 线 附 录 中 的 想法 ) 。 第 一 类 是 系统 编程 ( system 
programming) 项 目 。 这 些 项 目 非常 适合 那些 不 熟悉 C 和 UNIX， 并 希望 
学 习 如 何 进 行 底层 C 编 程 的 人 。 第 二 类 基于 在 麻 省 理工 学 院 开 发 的 实际 






































操作 系统 内 核 ， 称 为 xv6 [CK+08] 。 这 些 项 目 非 常 适合 已 经 有 一 些 C 的 
经 验 并 希望 深入 研究 操作 系统 的 学 生 。 在 威斯康星 大 学 ， 我 们 以 3 种 
不 同 的 方式 开课 : 系统 编程 、xv6 编 程 ， 或 两 者 兼 而 有 之 。 


致使 用 本 书 作为 教材 的 教师 


这 门 课程 很 适合 15 周 的 学 期 ， 因 此 授课 教师 可 以 在 合理 的 深度 范围 内 
讲授 大 部 分 主题 。 如 果 是 10 周 的 学 期 ， 那 么 可 能 需要 从 每 个 部 分 中 删 
除 一 些 细节 。 还 有 一 些 章节 是 关于 虚拟 机 监视 器 的 ， 我 们 通常 会 在 学 
期 的 某 个 时 候 插 入 这 些 章节 ， 或 者 在 虚拟 化 部 分 的 结尾 处 ， 抑 或 在 接 
近 课 程 结 束 时 作为 补充 。 


本 书 中 的 并 发 主题 比较 特别 。 它 是 许多 操作 系统 书籍 中 靠 前 的 主题 ， 
而 在 本 书 中 是 直到 学 生 了 解 了 CPU 和 内 存 的 虚拟 化 之 后 才 开 始 讲解 的 。 
根据 我 们 近 15 年 来 教授 本 课程 的 经 验 ， 学 生 很 难 理解 并 发 问题 是 如 何 
产生 的 ， 或 者 很 难 理解 人 们 试图 解决 它 的 原因 。 那 是 因为 他 们 还 不 了 
解 地 址 空间 是 什么 、 进 程 是 什么 ， 或 者 为 什么 上 下 文 切换 可 以 在 任意 
时 间 点 发 生 。 然 而 ， 一 旦 他 们 理解 了 这 些 概 念 ， 那 么 再 引入 线程 的 概 
念 和 由 此 产生 的 问题 就 变 得 相当 容易 ， 或 者 至 少 比较 容易 。 


我 们 尽 可 能 使 用 黑板 《或 白板 ) 来 讲课 。 在 着 重 强调 概念 的 时 候 ， 我 
们 会 将 一 些 主要 的 想法 和 例子 带 进 课堂 ， 并 在 黑板 上 展示 它们 。 讲 义 
有 助 于 为 学 生 提 供需 要 解决 的 具体 问题 。 在 着 重 强 调 实 践 的 时 候 ， 我 
们 就 将 笔记 本 电脑 连 上 投影 仪 ， 展 示 实 际 代码 。 这 种 授课 风格 特别 适 
用 于 并 发 的 内 容 以 及 所 有 的 讨论 部 分 。 在 这 些 部 分 中 ， 教 师 可 以 向 学 
生 展 示 与 其 项 目 相 关 的 代码 。 我 们 通常 不 使 用 幻灯 片 来 讲课 ,但 现在 
我 们 已 经 为 那些 喜欢 这 种 演示 风格 的 人 提供 了 一 套 教 学 PPT。 


如 果 你 想 要 任何 这 些 教学 辅助 材料 ， 请 给 contact@epubit. com. cn 发 电 
子 邮 件 。 

















最 后 一 个 请 求 : 如 果 你 使 用 免费 在 线 章 节 ， 请 直接 访问 作者 网 站 。 这 
有 助 于 我 们 跟踪 使 用 情况 《过 去 几 年 中 ， 本 书 英 文 版 下 载 超过 100 万 
次 ! ) ， 并 确保 学 生 获 得 最 新 和 最 好 的 版 本 。 


致使 用 本 书 上 课 的 学 生 


如 果 你 是 读 这 本 书 的 学 生 ， 那 么 我 们 很 亲 斑 能够 提供 一 些 材 料 来 帮助 
你 学 习 操作 系统 的 知识 。 我 们 至 今 还 能 够 回想 起 我 们 使 用 过 的 一 些 教 
科 书 (例如 ，Hennessy 和 Patterson 的 著作 [HP90]， 这 是 一 本 关于 计算 
机 架构 的 经 典 若 作 ) ， 并 希望 这 本 书 能 够 成 为 你 美好 的 回忆 之 一 。 


你 可 能 已 经 注意 到 ， 这 本 书 英文 版 的 在 线 版 本 是 免费 的 ， 并 且 可 在 线 
获取 ! 直 。 有 一 个 主要 原因 : 教科 书 一 般 都 太 贵 了 。 我 们 希望 ， 这 本 书 
是 新 一 波 免 费 材 料 中 的 第 一 本 〈 指 电子 版 ”， 以 帮助 那些 寻求 知识 的 
人 一 一 无 论 他 们 来 自 哪 个 国家 ， 或 者 他 们 愿意 花 多 少 钱 购买 一 本 书 。 


我 们 也 希望 ， 在 可 能 的 情况 下 ， 癌 你 指出 书 中 大 部 分 材料 的 原始 资料 
一 一 多 年 来 的 优秀 论文 和 人 物 ， 他 们 让 操作 系统 领域 成 为 现在 的 样 
子 。 想 法 不 会 赁 空 产生 ， 它 们 来 自 聪 明 勤 奋 的 人 包括 众多 图 灵 奖 获 
得 者 ! 半 ) ， 因 此 如 果 有 可 能 ， 我 们 应 该 赞美 这 些 想 法 和 人 。 我 们 希望 
这 样 做 能 有 助 于 更 好 地 理解 已 经 发 生 的 有 变革， 而 不 是 说 好 像 我 们 写 这 
本 书 时 那些 思想 一 直 就 存在 一 样 [K62] 。 此 外 ， 也 许 这 样 的 参考 文献 能 
够 苹 励 你 深入 挖掘 ， 而 阅读 该 领域 的 著名 论文 无 疑 是 民 好 的 学 习 方 法 
全 一 。 
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Kaushik Kannan, Kevin Liuk，Lei Tian (U. Nebraska-Lincoln), 
Leslie Schultz, Liang Yin, Lihao Wang, Martha Ferris, Masashi 
Kishikawa (Sony), Matt Reichoff, Matty Williams, Meng Huang, 
Michael VWalfish (NYU), Mike Griepentrog, Ming Chen 
(Stonybrook), Mohammed Alali (Delaware), Murugan Kandaswamy, 
Natasha Eilbert, Nathan Dipiazza, Nathan Sullivan, Neeraj 
Badlani (N.C. State), Nelson Gomez, Nghia Huynh (Texas), Nick 
Weinandt, Patricio Jara, Perry Kivolowitz, Radford Smith, 
Riccardo Mutschlechner, Ripudaman Singh, Robert Ordonez and 
class (Southern Adventist), Rohan Das (Toronto)*, Rohan 
Pasalkar (Minnesota), Ross Aiken, Ruslan Kiselev, Ryland 
Herrick, Samer Al-Kiswany, Sandeep Ummadi (Minnesota), Satish 
Chebrolu (NetApp), Satyanarayana Shanmugam*, Seth Pollen, 
Sharad Punuganti, Shreevatsa FR., Sivaraman Sivaraman*, 
Srinivasan Thirunarayanan*, Suriyhaprakhas Balaram Sankari, 
Sy Jin Cheah, Teri Zhao (EMC), Thomas Griebel, Tongxin Zheng, 
Tony Adkins, Torin Rudeen (Princeton), Tuo Wang, Varun Vats, 
William Royle (Grinnell), Xiang Peng, Xu Di, Yudong Sun, Yue 


Zhuo (Texas A&M), Yufui Ren, Zef RosnBrick，Zuyu Zhang。 特 别 
感谢 上 面 标 有 星 号 的 人 ， 他 们 的 改进 建议 尤其 重要 。 


此 外 ， 圳 心 感谢 Joe Meehean 教 授 (Lynchburg) 为 每 一 章 所 做 的 详细 
注解 ， 感 谢 Jerod Weinman 教 授 (Grinnell)〉 和 他 的 全 班 同 学 提供 的 令 
人 难以 置信 的 小 册子 ， 感 谢 Chien-Chung Shen 教 授 (Delaware) 的 细 
致 阅 读 和 建议 ， 感 谢 Adam Drescher (WUSTL) 的 细致 阅读 和 建议 ， 感 
谢 Glen Granzow (College of Idaho) 提供 详细 的 评论 和 建议 ， 感 谢 
Michael Walfish CNYU) 详细 的 改进 建议 。 上 述 所 有 人 都 给 予 本 书 作 
者 巨大 的 帮助 ， 优 化 了 本 书 的 内 容 。 


另外 ， 非 常 感谢 这 些 年 来 参加 537 课 程 的 数 百 名 学 生 。 特 别 是 2008 年 秋 
季 课 程 的 学 生 ， 鼓 励 我 们 第 一 次 以 书面 形式 写 下 了 这 些 讲义 (他 们 厌 
倦 了 没有 任何 类 型 的 教科 书 可 读 一 一 有 进取 心 的 学 生 ! ) ， 然 后 不 音 
称赞 ， 让 我 们 继续 前 行 ( 一 位 同学 在 那 一 年 的 课程 评估 中 喜 不 自 禁 地 
说 : “老天爷 ! 你 们 完全 应 该 写 一 本 教科 书 ! ” ) 。 


我 们 也 非常 感谢 那些 参加 xv6 项 目 实验 课程 的 少数 人 ， 这 个 实验 课程 大 
部 分 现 已 纳入 主要 的 537 课 程 。2009 年 春季 班 的 Justin Cherniak， 
Patrick Deline ， Matt Czech ， Tony Gregerson ， Michael 
Griepentrog, Tyler Harter, Ryan Kroiss, Eric Radzikowski, 
Wesley Reardan, Rajiv Vaidyanathan 和 Christopher Waclawik 。 
2009 年 秋季 班 的 Nick Bearson ，Aaron Brown ，Alex Bird, David 
Capel, Keith Gould, Tom Grim, Jeffrey Hugo, Brandon Johnson, 
John Kjell, Boyan Li, James Loethen, Will McCardell, Ryan 
Szaroletta，Simon Tso 和 Ben Yule 。 2010 年 春季 班 的 Patrick 
Blesi, Aidan Dennis-O0ehling, Paras Doshi, Jake Friedman ， 
Benjamin Frisch ， Evan Hanson , Pikkili Hemanth ， Michael 
Jeung, Alex Langenfeld, Scott Rick, Mike Treffert, Garret 
Staus ， Brennan Wall, Hans Werner, Soo -Young Yang 和 Carlos 
Griffin。 


虽然 没有 直接 帮助 这 本 书 的 写作 ， 但 我 们 的 研究 生 教 会 了 我 们 很 多 关 
于 系统 的 知识 。 我 们 在 威斯康星 大 学 时 经 常 与 他 们 交谈 ， 并 且 所 有 真 
正 的 工作 都 是 他 们 做 的 一 一 通过 告诉 我 们 他 们 在 做 什么 ， 我 们 每 周 都 
能 学 习 到 新 事物 。 下 面 的 列表 包括 我 们 已 发 布 论文 的 当前 和 以 前 的 学 
生 ， 带 有 星 号 标志 的 名 字 是 在 我 们 的 指导 下 获得 博士 学 位 的 人 : 
Abhishek Rajimwale, Andrew Krioukov, Ao Ma, Brian Forney, 





Chris Dragga, Deepak Ramamurthi ， Florentina Popovici *， 
Haryadi S. Gunawi *, James Nugent, John Bent *, Jun He, 
Lanyue Lu, Lakshmi Bairavasundaram * , Laxman Visampalli, Leo 
Arulra]j, Meenali Rungta, Muthian Sivathanu *, Nathan Burnett 
*，Nitin Agrawal *, Ram Alagappan, Sriram Subramanian *,， 
Stephen Todd Jones *, Suli Yang, Swaminathan Sundararaman*, 
Swetha Krishnan, Thanh Do*, Thanumalayan S. Pillai, Timothy 
Denehy* ， Tyler Harter ， Venkat Venkataramani ， Vijay 
Chidambaram, Vijayan Prabhakaran *, Yiyi Zhang *, Yupu Zhang 
米 ，Zev Weiss。 


最 后 要 感谢 Aaron Brown， 他 多 年 前 〈2009 年 春季 ) 首次 参加 该 课程 ， 
接着 参加 了 xv6 实 验 课程 (2009 年 秋季 ) ， 最 后 还 成 为 了 两 个 课程 的 研 
究 生 助教 〈 从 2010 年 秋季 到 2012 年 春季 ) 。 他 不 知 疲倦 的 工作 极 大 地 
改善 了 项 目的 状态 (特别 是 xv6 项 目 ) ， 因 此 有 助 于 改善 威斯康星 大 学 
ee 正如 Aaron 所 说 的 (以 他 通常 的 简洁 
方式 ) : “谢谢 。” 


最 后 的 话 





叶 芝 有 一 句 名 言 : “教育 不 是 注 满 一 桶 水 ， 而 是 点 燃 一 把 火 。” 他 说 
得 既 对 也 错 43。 你 必须 “给 桶 注 一 点 水 ”， 这 本 书 当然 可 以 帮助 你 完 
成 这 部 分 的 教育 。 毕 竟 ， 当 你 去 Google 面 试 时 ， 他 们 会 问 你 一 个 关于 
如 何 使 用 信号 量 的 技巧 问题 ， 确 切 地 知道 信号 量 是 什么 感觉 真 好 ， 对 
吧 ? 


但 是 ， 叶 芝 的 主要 观点 显而易见 : 教育 的 真正 要 点 是 让 你 对 某 些 事情 
感 兴趣 ， 可 以 独立 学 习 更 多 关于 这 个 主题 的 东西 ， 而 不 仅仅 是 你 需要 
消化 什么 才能 在 某 些 课程 上 取得 好 成 绩 。 正 如 我 们 的 父 杀 〔( 雷 姆 兹 的 
父亲 Vedat Arpaci) 曾经 说 过 的 ，“ 在 课堂 以 外 学 习 。” 


我 们 编写 本 书 以 激发 你 对 操作 系统 的 兴趣 ， 让 你 能 自行 阅读 有 关 该 主 
题 的 更 多 信息 ， 进 而 与 你 的 教授 讨论 该 领域 正在 进行 的 所 有 令 人 兴奋 
的 研究 ， 甚 至 参与 这 些 研 究 。 这 是 一 个 伟大 的 领域 ， 充 满 了 激动 人 心 
和 精妙 的 想法 ， 以 深刻 而 重要 的 方式 塑造 了 计算 历史 。 虽 然 我 们 知道 























这 种 火 不 会 为 你 们 所 有 人 点 燃 ， 但 我 们 希望 这 能 对 许多 人 ， 甚 至 是 少 
数 人 有 所 帮助 。 因 为 一 旦 火 被 点 燃 ， 那 你 就 真正 有 能 力 做 出 伟大 的 事 
情 。 因 此 ， 教 育 过 程 的 真正 意义 在 于 前进， 学 习 许多 新 的 和 引 人 入 
胜 的 主题 ， 通 过 学 习 不 断 成 熟 ， 最 重要 的 是 ， 找 到 能 为 你 点 火 的 东 
西 。. 





威斯康星 大 学 计算 机 科学 教授 ” 雷 姆 效 和 安 德 莉 亚 夫 妇 


[CK+08] “The xv6 Operating System”Russ Cox, Frans Kaashoek, 
Robert Morris, Nickolai Zeldovich. 


xv6 是 作为 原来 UINIX 版 本 6 的 移植 版 开发 的 ， 它 代表 了 通过 一 种 美观 、 
干净 、 简 单 的 方式 来 理解 现代 操作 系统 。 


[F96]“Six Easy Pieces: Essentials Of Physics Explained By 
Its Most Brilliant Teacher” Richard P. Feynman 


Basic Books, 1996 


这 本 书 摘 取 了 1993 年 的 《 费 曼 物 理学 讲义 》 中 6 个 最 简单 的 章节 。 如 果 
你 喜欢 物理 学 ， 那 么 就 读 一 读 这 本 很 优秀 的 读物 吧 。 


[HP90] “Computer Architecture a Quantitative Approach” (lst 
ed.) David A. Patterson and John L. Hennessy 


Morgan-Kaufman, 1990 


在 读本 科 时 ， 这 本 书 成 为 了 我 们 去 攻读 研究 生 的 动力 。 我 们 后 来 都 很 
a 他 为 我 们 研究 事业 基础 的 奠定 给 予 了 极 大 的 帮 
助 。 








[KR88] “The C Programming Language” Brian Kernighan and 
Dennis Ritchie Prentice-Hall, April 1988 





每 个 人 都 应 该 拥有 一 本 由 发 明 该 语言 的 人 编写 的 C 编 程 参考 书 。 


[K62]“The Structure of Scientific Revolutions” Thomas S. 
Kuhn 


University of Chicago Press, 1962 


这 是 关于 科学 过 程 基 础 知识 的 著名 读物 ， 包 括 科 学 过 程 的 整理 工作 、 
异常 、 危 机 和 变革 。 我 们 要 做 的 是 整理 工作 。 


[1]， 这 里 的 题 外 话 ; 我 们 在 这 里 所 说 的 “免费 ”并 不 意味 首开 源 ， 也 
不 意味 着 该 书 没有 受到 通常 保护 的 版 权 一 一 它 是 受到 保护 的 ! 我 们 的 
意思 是 你 可 以 下 载 章 节 ， 并 使 用 它们 来 了 解 操作 系统 。 为 什么 不 是 一 
本 开源 的 书 ， 不 像 Linux 一 样 是 一 个 开源 内 核 ? 当 你 阅读 它 时 ， 这 本 书 
应 该 像 一 次 对 话 ， 东 人 回 你 解释 茶 事 。 因 此 ， 这 就 是 我 们 的 方法 。 


[2]， 图 灵 交 是 计算 机 科学 的 最 高 奖项 。 它 就 像 诡 贝 尔 奖 ， 但 你 可 能 从 
未 听 说 过 。 
[3]， 如 果 他 真 的 说 了 这 人 句 话 。 与 许多 名 言 一 样 ， 这 人 句 名 言 的 历史 也 是 
模糊 不 清 的 。 


[4]， 如 果 这 听 起 来 像 我 们 承认 过 去 曾 是 纵火 犯 ， 那 你 可 能 理解 错 了 。 
如 果 这 听 起 来 很 俗气 ， 好 吧 ， 因 为 它 确实 是 的 ， 但 你 必须 原谅 我 们 。 








资源 与 文 持 


本 书 由 异步 社区 出 品 ， 社 区 (https://www. epubit. com/) 为 你 提供 相 
关 资 源 和 后 续 服务 。 


配套 资源 


本 书 为 教师 提供 如 下 教学 辅助 资源 : 


。 教 学 PPT 和 听课 笔记 ; 
。 考 试题 和 参考 答案 ; 
。 讨 论题 和 作业 ; 
。 项目 说 明和 指导 。 
如 果 您 是 教师 ， 和 希望 获得 教学 配套 资源 ， 请 发 邮件 到 


contact@epubit. com. cn 申请 ， 或 者 在 社区 本 书页 面 中 直接 联系 本 书 的 
责任 编辑 。 


提交 勘误 











作者 和 编辑 尽 最 大 努力 来 确保 书 中 内 容 的 准确 性 ， 但 难免 会 存在 下 C 
漏 。 欢 迎 您 将 发 现 的 问题 反馈 给 我 们 ， 帮 助 我 们 提升 图 书 的 质量 。 


当 您 用 现 错误 时 ， 请 登录 异步 社区 ， 按 书 名 搜索 ， 进 入 本 书页 面 ， 单 
击 “ 提 交 勘 误 ”， 输 入 勘误 信息 ， 单 击 “ 提 交 ” 按 钮 即 可 。 本 书 的 作 


者 和 编辑 会 对 您 提交 的 勘误 进行 审核 ， 确 认 并 接受 后 ， 您 将 获 赠 异步 
社区 的 100 积 分 。 积 分 可 用 于 在 异步 社区 兑换 优惠 券 、 样 书 或 奖品 。 





网 支 ; 


[Vuk's' (mE 





与 我 们 联系 


我 们 的 联系 邮箱 是 contact@epubit. com. cn。 


如 果 您 对 本 书 有 任何 疑问 或 建议 ， 请 您 发 邮件 给 我 们 ， 并 请 在 邮件 标 
题 中 注 明 本 书 书 名 ， 以 便 我 们 更 高 效 地 做 出 反馈 。 


如 果 您 有 兴趣 出 版 图 书 、 录 制 教学 视频 ， 或 者 参与 图 书 翻译 、 技 术 审 
区 等 工作 ， 可 以 发 邮件 给 我 们 ， 有 意 出 版 图 书 的 作者 也 可 以 到 异步 社 
区 在 线 提 交 投 稿 (直接 访问 www. epubit. com/selfpublish/submission 
即 可 ) 。 


如 果 您 是 学 校 、 培 训 机 构 或 企业 ， 想 批量 购买 本 书 或 异步 社区 出 版 的 
其 他 图 书 ， 也 可 以 发 邮件 给 我 们 。 


如 果 您 在 网 上 发 现 有 针对 异步 社区 出 品 图 书 的 各 种 形式 的 盗版 行为 ， 
包括 对 图 书 全 部 或 部 分 内 容 的 非 授权 传播 ， 请 您 将 怀疑 有 侵权 行为 的 
链接 及 邮件 给 我 们 。 您 的 这 一 举动 是 对 作者 权 葡 的 保护 ， 也 和 古 我 们 持 
续 为 您 提供 有 价值 的 内 容 的 动力 之 源 。 














关于 异步 社区 和 异步 图 书 


“异步 社区 ”是 人 民 邮 电 出 版 社 旗 下 IT 专 业 图 书社 区 ， 致 力 于 出 版 精 
品 IT 技术 图 书 和 相关 学 习 产 品 ， 为 作 译 者 提供 优质 出 版 服务 。 有 异步 社 
区 创办 于 2015 年 8 月 ， 提 供 大 量 精 品 IT 技术 图 书 和 电子 书 ， 以 及 高 品质 
技术 文章 和 视频 课程 。 更 多 详情 请 访问 异步 社区 官网 
https://www. epubit. com。 


“异步 图 书 ” 是 由 异步 社区 编辑 团队 集 划 出 版 的 精品 IT 专 业 图 书 的 品 
牌 ， 依 托 于 人 民 邮 电 出 版 社 近 30 年 的 计算 机 图 书 出 版 积累 和 专业 编辑 
团队 ， 相 关 图 书 在 封面 上 印 有 和 寞 步 图 书 的 L060。 寞 步 图 书 的 出 版 领域 
包括 软件 开发 、 大 数据 、AI、 测 试 、 前 端 、 网 络 技术 等 。 








第 l 半 ”关于 本 书 的 对 话 


教授 : 欢迎 阅读 这 本 书 ， 本 书 英 文书 名 为 《0perating Systems:Three 
， Pieces》， 由 我 来 讲授 关于 操作 系统 的 知识 。 请 做 一 下 自我 介 
思 


一 


学 生 ， 教 授 ， 您 好 ， 我 是 学 生 ， 您 可 能 已 经 猜 到 了 ， 我 已 经 准备 好 开 
8 学习 了 ! 


教授 : 很 好 。 有 问题 吗 ? 
学 生 : 有 ! 本 书 为 什么 讲 “3 个 简单 部 分 ”? 
教授 :这 很 简单 。 理 查 德 。 费 曼 有 几 本 关于 物理 学 的 讲义 ， 非 常 不 





学 生 : 啊 ， 是 《 别 闸 了 ， 费 曼 先 生 》 的 作者 吗 ? 那 本 书 很 棒 ! 这 书 也 
会 像 那 本 书 一 样 搞笑 吗 ? 


教授 : 听 …… 不 。 那 本 书 的 确 很 棒 ， 很 高 兴 你 读 过 它 。 我 希望 这 本 书 
更 像 他 关于 物理 学 的 讲义 。 将 一 些 基本 内 容 汇 集成 一 本 书 ， 名 为 《Six 
Easy Pieces》。 他 讲 的 是 物理 学 ， 而 我 们 将 探讨 的 主题 是 操作 系统 的 
人 








学 生 : 懂 了 ， 我 喜欢 物理 学 。 是 哪 3 个 部 分 呢 ? 


教授 : 虚拟 化 (virtualization) 、 并 发 (concurrency) 和 持久 性 
(persistence) 。 这 是 我 们 要 学 习 的 3 个 关键 概念 。 通 过 学 习 这 3 
个 概念 ， 我 们 将 理解 操作 系统 是 如 何 工 作 的 ， 包 插 它 如 何 决 定 接 下 来 
哪个 程序 使 用 CPU， 如 何在 虚拟 内 存 系统 中 处 理 内 存 使 用 过 载 ， 虚 拟 机 
监控 器 如 何 工 作 ， 如 何 管理 磁盘 上 的 数据 ， 还 会 讲 一 点 如 何 构 建 在 音 
分 节点 失败 时 仍 能 正常 工作 的 分 布 式 系 统 。 


学 生 : 对 于 您 说 的 这 些 ， 我 都 没有 概念 。 





教授 : 好 极 了 ， 这 说 明 你 来 对 了 地 方 。 
学 生 : 我 还 有 一 个 问题 : 学 习 这 些 内 容 最 好 的 方法 是 什么 ? 


教授 : 好 问题 ! 当然 ， 每 个 人 都 有 适合 自己 的 学 习 方 法 ， 但 我 的 方法 
是 : 首先 听课 ， 听 老师 讲解 并 做 好 笔记 ， 然 后 每 个 周末 阅读 笔记 ， 以 
便 更 好 地 理解 这 些 概 仿 。 过 一 段 时 间 〈 比 如 考试 前 ) ， 再 阅读 一 过 笔 
记 来 进一步 巩固 知识 。 当 然 老师 也 肯定 会 布置 作业 和 项 目 ， 你 需要 认 
真 完 成 。 特 别 是 做 项 目 ， 你 会 编写 真正 的 代码 来 解决 真正 的 问题 ， 这 
是 将 笔记 中 的 概念 活 学 活用 。 就 像 孔子 说 的 那样 …… 


学 生 ， 我 知道 ! “不 闻 不 车 闻 之 ， 闻 之 不 著 见 之 ， 见 之 不 车 知之 ， 知 
之 让 着 们 之” 


教授 : (惊讶 ) 你 怎么 知道 我 要 说 这 个 ? 


学 生 : 这 样 似 乎 很 连贯 。 我 是 孔子 的 粉丝 ， 更 是 荀子 的 粉丝 ， 实 际 上 
荀子 才 是 说 这 句 话 的 全 |。 


教授 : 〈 尾 然 ) 我 猜 我 们 会 相处 得 很 愉快 。 


学 生 : 教授 ， 我 还 有 一 个 问题 ， 我 们 这 样 的 对 话 有 什么 用 的 。 我 是 说 
如 果 这 仅 是 一 本 书 ， 为 什么 您 不 直接 上 来 就 讲述 知识 呢 ? 


教授 : 好 问题 ! 我 觉得 有 的 时 候 将 自己 从 叙述 中 抽 离 出 来 ， 然 后 进行 
一 些 思考 会 更 有 用 。 这 些 对 话 就 是 思考 。 我 们 将 协作 探究 所 有 这 些 复 
杂 的 概念 。 你 是 为 此 而 来 的 吗 ? 


学 生 : 所 以 我 们 必须 思考 ? 好 的 ， 我 正 是 为 此 而 来 。 不 过 我 还 有 什么 
要 做 的 吗 ? 看 起 来 我 好 像 就 是 为 此 书 而 生 。 


教授 : 我 也 是 。 我 们 开始 学 习 吧 ! 

















[1] 儒家 思想 家 荀子 曾 说 过 : “不 闻 不 若 闻 之 ， 闻 之 不 车 见 之 ， 见 之 
不 知 知 之 ， 知 之 不 和 若 行 之 。” 后 来 ， 不 知 怎么 这 名 名 言 归 到 了 筷子 头 
上 。 感 谢 Jiao Dong (Rutgers) 告诉 我 们 。 





第 2 章 ”操作 系统 介绍 


如 果 你 正在 读本 科 操 作 系 统 课程 ， 那 么 应 该 已 经 初步 了 解 了 计算 机 程 
序 运 行 时 做 的 事情 。 如 果 不 了 解 ， 这 本 书 〈 和 相应 的 课程 )》 对 你 来 说 
会 很 困难 : 你 应 该 停止 阅读 本 书 ， 或 跑 到 最 近 的 书店 ， 在 继续 读本 书 
之 前 快速 学 习 必 要 的 背景 知识 〈 包 括 Patt / Patel [PP03 ]， 特 别 是 
Bryant / 0”Hallaron 的 书 LBOH10]， 都 是 相当 不 错 的 ) 。 


程序 运行 时 会 发 生 什 么 ? 


一 个 正在 运行 的 程序 会 做 一 件 非常 简单 的 事情 : 执行 指令 。 处 理 器 从 
内 存 中 获取 (fetch) 一 条 指令 ， 对 其 进行 解码 〈decode) 〈 和 弄 清楚 这 
是 哪 条 指令 ) ， 然 后 执行 (execute) 它 “〈 做 它 应 该 做 的 事情 ， 如 两 个 
数 相 加 、 访 问 内 存 、 检 查 条 件 、 跳 转 到 函数 等 ) 。 完 成 这 条 指令 后 ， 
处 理 器 继续 执行 下 一 条 指令 ， 依 此 类 推 ， 直 到 程序 最 终 完成 岂 ]。 


这 样 ， 我 们 就 描述 了 汉 “。 诺 依 曼 (Von Neumann) 计算 模型 !24 的 基本 概 
念 。 听 起 来 很 简单 ， 对 吧 ? 但 在 这 门 课 中 ， 我 们 将 了 解 到 在 一 个 程序 
运行 的 同时 ， 还 有 很 多 其 他 疯狂 的 事情 也 在 同步 进行 一 一 主要 是 为 了 
让 系统 易于 使 用 。 


实际 上 ， 有 一 类 软件 负责 让 程序 运行 变 得 容易 《甚至 允许 你 同时 运行 
多 个 程序 ) ， 人 允许 程序 共享 内 存 ， 让 程序 能 够 与 设备 交互 ， 以 及 其 他 
类 似 的 有 趣 的 工作 。 这 些 软件 称 为 操作 系统 (0perating System， 
0S) 4， 因 为 它们 负责 确保 系统 既 易于 使 用 又 正确 高 效 地 运行 。 




















关键 问题 : 如何 将 资源 虚拟 化 


我 们 将 在 本 书 中 回答 一 个 核心 问题 : 操作 系统 如 何 将 资源 虚 
拟 化 ? 这 是 关键 问题 。 为 什么 操作 系统 这 样 做 ? 这 不 是 主要 
问题 ， 因 为 答案 应 该 很 明显 : 它 让 系统 更 易于 使 用 。 因 此 ， 
我 们 关注 如 何 虚拟 化 ， 操作 系统 通过 哪些 机 制 和 策略 来 实现 


操作 系统 如 何 有 效 地 实现 虚拟 化 ? 需要 哪些 硬件 文 
寺 ? 





我 们 将 用 这 种 灰色 文本 框 来 突出 “关键 (crux) 问题 ”， 以 
此 引出 我 们 在 构建 操作 系统 时 试图 解决 的 具体 问题 。 因 此 ， 
在 关于 特定 主题 的 说 明 中 ， 你 可 能 会 发 现 一 个 或 多 个 关键 点 
(是 的 ，cruces 是 正确 的 复数 形式 ) ， 它 突出 了 问题 。 当 
然 ， 该 章 详 细 地 提供 了 解决 方案 ， 或 至 少 是 解决 方案 的 基本 


要 做 到 这 一 点 ， 操 作 系 统 主要 利用 一 种 通用 的 技术 ， 我 们 称 之 为 虚拟 
化 (virtualization) 。 也 束 是 说 ， 操 作 系 统 将 物理 (physical) 资 
源 《〈 如 处 理 器 、 内 存 或 磁盘 ) 转换 为 更 通用 、 更 强大 且 更 易于 使 用 的 
虚拟 形式 。 因 此 ， 我 们 有 时 将 操作 系统 称 为 虚拟 机 (virtual 


machine) 。 


当然 ， 为 了 让 用 户 可 以 告诉 操作 系统 做 什么 ， 从 而 利用 虚拟 机 的 功能 
《如 运行 程序 、 分 配 内 存 或 访问 文件 ) ， 操 作 系统 还 提供 了 一 些 接口 
CAPI) ， 供 你 调用 。 实 际 上 ， 典 型 的 操作 系统 会 提供 几 百 个 系统 调用 
(system call) ， 让 应 用 程序 调用 。 由 于 操作 系统 提供 这 些 调 用 来 运 
行程 序 、 访 问 内 存 和 设备 ， 并 进行 其 他 相关 操作 ， 我 们 有 时 也 会 说 操 
作 系 统 为 应 用 程序 提供 了 一 个 标准 库 (standard library) 。 


最 后 ， 因 为 虚拟 化 让 许多 程序 运行 〈 从 而 共享 CPU) ， 让 许多 程序 可 以 
同时 访问 上 自己 的 指令 和 数据 〈 从 而 共享 内 存 ) ， 让 许多 程序 访问 设备 
(从 而 共享 磁盘 等 ) ， 所 以 操作 系统 有 时 被 称 为 资源 管理 器 
(resource manager ) 。 每 个 CPU、 内 存 和 磁盘 都 是 系统 的 资源 
(resource) ， 因 此 操作 系统 扮演 的 主要 角色 就 是 管理 (manage) 这 
些 资源 ， 以 做 到 高 效 或 公平 ， 或 者 实际 上 考虑 其 他 许多 可 能 的 目标 。 
为 了 更 好 地 理解 操作 系统 的 角色 ， 我 们 来 看 一 些 例 子 。 

















2.1 虚拟 化 CPU 





图 2. 1 展示 了 我 们 的 第 一 个 程序 。 实 际 上 ， 它 没有 太 大 的 作用 ， 它 所 做 
的 只 是 调用 Spin0 函数 ， 该 函数 会 反复 检查 时 间 并 在 运行 一 秒 后 返 
0 
羊 做 。 








1 #include <stdio.n> 

2 #include <stdlib.n> 

3 #include <sys/time.h> 

4 #include <assert.n> 

5 #include "common.h" 

6 

中 int 

8 main(int argc, char *argv[]) 
9 { 

10 if (argc != 2) { 

让 fprintf(stderr, "usage: cpu <string>\n"); 
于 儿 exit (1) 

dss } 

14 char *str = argv[1] 

.5 while (1) { 

:6 Spin.(1) 

1.7 printf("%$s\n", str); 
18 } 

水 9 return 0; 

20 } 

















图 2. 1 简单 示例 : 循环 打印 的 代码 (cpu. c) 


假设 我 们 将 这 个 文件 保存 为 cpu. ec， 并 决定 在 一 个 单 处 理 器 (或 有 时 称 
为 CPU) 的 系统 上 编译 和 运行 它 。 以 下 是 我 们 将 看 到 的 内 容 : 


prompt> ./cpu "A" 
A 














A 

A 

A 

CE 
prompt> 





运行 不 太 有 趣 : 系统 开始 运行 程序 时 ， 访 程序 会 重复 检查 时 间 ， 直 到 
一 秒 钟 过 去 。 一 秒 钟 过 去 后 ， 代 码 打 印 用 户 传 入 的 字符 串 〈 在 本 例 中 
为 字母 “A”) 并 继续 。 注 意 : 该 程序 将 永远 运行 ， 只 有 按 下 
“Control-c” (这 在 基于 UNIX 的 系统 上 将 终止 在 前 台 运 行 的 程序 ) ， 
才能 停止 运行 该 程序 。 


现在 ， 让 我 们 做 同样 的 事情 ， 但 这 一 次 ， 让 我 们 运行 同一 个 程序 的 许 
多 不 同 实例 。 图 2. 2 展示 了 这 个 稍 复杂 的 例子 的 结果 。 








rompt> ./cpu A&; ./cpu BE&; ./cpu CE&; ./cpu DR& 
1] 7353 
2] 7354 
3 7355 
4] 7356 





图 2. 2 同时 运行 许多 程序 


好 吧 ， 现 在 事情 开始 变 得 有 趣 了 。 尽 管 我 们 只 有 一 个 处 理 器 ， 但 这 4 
个 程序 似乎 在 同时 运行 ! 这 种 魔法 是 如 何 发 生 的 ? [和 


事实 证 明 ， 在 硬件 的 一 些 帮 助 下 ， 操 作 系 统 负责 提供 这 种 假象 
(Cillusion) ， 即 系统 拥有 非常 多 的 虚拟 CPU 的 假象 。 将 单个 CPU (或 
其 中 一 小 部 分 ) 转换 为 看 似 无 限 数量 的 CPU， 从 而 让 许多 程序 看 似 同 时 
运行 ， 这 就 是 所 谓 的 虚拟 化 CPU (virtualizing the CPU) ， 这 是 本 书 
第 一 大 部 分 的 关注 点 。 


当然 ， 要 运行 程序 并 停止 它们 ， 或 告诉 操作 系统 运行 哪些 程序 ， 需 要 
有 一 些 接口 〈API) ， 你 可 以 利用 它们 将 需求 传达 给 操作 系统 。 我 们 将 
在 本 书 中 讨论 这 些 APIT。 事 实 上 ， 它 们 是 大 多 数 用 户 与 操作 系统 交互 的 


你 可 能 还 会 注意 到 ， 一 次 运行 多 个 程序 的 能 力 会 引发 各 种 新 问题 。 例 
如 ， 如 果 两 个 程序 想 要 在 特定 时 间 运 行 ， 应 该 运行 哪个 ? 这 个 问题 由 
操作 系统 的 策略 (policy) 来 回答 。 在 操作 系统 的 许多 不 同 的 地 方 采 
用 了 一 些 策略 ， 来 回答 这 类 问题 ， 所 以 我 们 将 在 学 习 操 作 系 统 实现 的 
基本 机 制 (mechanism) (例如 一 次 运行 多 个 程序 的 能 力 ) 时 研究 这 些 
策略 。 因 此 ， 操 作 系 统 承 担 了 资源 管理 器 (resource manager) 的 角 
色 。 











2.2 虚拟 化 内 存 





现在 让 我 们 考虑 一 下 内 存 。 现 代 机 器 提供 的 物理 内 存 (physical 
memory) 模型 非常 简单 。 内 存 就 是 一 个 字 节 数组 。 要 读 取 (read) 内 
存 ， 必 须 指定 一 个 地 址 (address) ， 才 能 访问 存储 在 那里 的 数据 。 要 
写 入 (write) 或 更 新 (update) 内 存 ， 还 必须 指定 要 写 入 给 定 地 址 的 
数据 。 


程序 运行 时 ， 一 直 要 访问 内 存 。 程 序 将 所 有 数据 结构 保存 在 内 存 中 ， 
并 通过 各 种 指令 来 访问 它们 ， 例 如 加 载 和 保存 ， 或 利用 其 他 明确 的 指 
令 ， 在 工作 时 访问 内 存 。 不 要 忘记 ， 程 序 的 每 个 指令 都 在 内 存 中 ， 
此 每 次 读 取 指令 都 会 访问 内 存 。 


让 我 们 来 看 一 个 程序 ， 它 通过 调用 malloc 0 来 分 配 一 些 内 存 〈 见 图 
2 








1 #include <unistd.nhn> 

2 #include <stqio.h> 

3 #include <stdlib.h> 

4 #include "common.h" 

5 

6 开 瑟 七 

水 main(int argc char *argv[]) 

8 { 

9 int *p = malloc(sizeof (int)); // al 
TD assert(p != NULL); 

下 让 printf("(%d) memory address of p: %08x\n", 

12 getpid(), (unsigned) p); // a2 
13 xD = 0; // a3 
14 while (1) { 

15 SELr(L.)s 

16 二 二 pp; 中 .3 

17 printf("(%d) p: Sd\n", getpid(), *p); // a4 
18 } 

19 return 0; 

20 } 


图 2. 3 一 个 访问 内 存 的 程序 (mem. c ) 


该 程序 的 输出 如 下 : 


prompt> ./mem 

(2134) memory address of p: 00200000 
(2134) p: 1 

(2134) p: 2 


该 程序 做 了 几 件 事 。 首 先 ， 它 分 配 了 一 些 内 存 (al 行 ) 。 然 后 ， 打 印 
出 内 存 〈a2) 的 地 址 ， 然 后 将 数字 0 放 入 新 分 配 的 内 存 (a3) 的 第 一 个 
空位 中 。 最 后 ， 程 序 循环 ， 延 迟 一 秒 钟 并 递增 p 中 保存 的 地 址 值 。 在 每 
个 打印 语句 中 ， 它 还 会 打印 出 所 谓 的 正在 运行 程序 的 进程 标识 符 
(PID)〉 。 该 PID 对 每 个 运行 进程 是 唯一 的 。 


同样 ， 第 一 次 的 结果 不 太 有 趣 。 新 分 配 的 内 存 地 址 为 00200000。 程 序 
运行 时 ， 它 慢 慢 地 更 新 值 并 打印 出 结果 。 


现在 ， 我 们 再 次 运行 同一 个 程序 的 多 个 实例 ， 看 看 会 发 生 什么 〈 见 图 
2.4) 。 我 们 从 示例 中 看 到 ， 每 个 正在 运行 的 程序 都 在 相同 的 地 址 
(00200000) 处 分 配 了 内 存 ， 但 每 个 似乎 都 独立 更 新 了 00200000 处 的 
值 ! 就 好 像 每 个 正在 运行 的 程序 都 有 自己 的 私有 内 存 ， 而 不 是 与 其 他 
正在 运行 的 程序 共享 相同 的 物理 内 存 ( 引 。 


prompt> ./mem &; ./mem & 

1] 24113 

2] 24114 

13) memory address of p: 00200000 
memory address of p: 00200000 
区 和 十 
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图 2.4 多 次 运行 内 存 程序 


实际 上 ， 这 正 是 操作 系统 虚拟 化 内 存 (virtualizing memory) 时 发 生 
的 情况 。 每 个 进程 访问 自己 的 私有 虚拟 地 址 空间 (virtual address 
space ) 〈 有 时 称 为 地 址 空间 ，address space) ， 操 作 系 统 以 某 种 方 
式 映 射 到 机 器 的 物理 内 存 上 。 一 个 正在 运行 的 程序 中 的 内 存 引 用 不 会 
影响 其 他 进程 〈 或 操作 系统 本 身 ) 的 地 址 空间 。 对 于 正在 运行 的 程 
序 ， 它 完全 拥有 自己 的 物理 内 存 。 但 实际 情况 是 ， 物 理 内 存 是 由 操作 














系统 管理 的 共享 资源 。 所 有 这 些 是 如 何 完成 的 ， 也 是 本 书 第 1 部 分 的 主 
题 ， 属于 虚拟 化 (virtualization) 的 主题 。 


2.3 并 发 


本 书 的 另 一 个 主题 是 并 发 (concurrency) 。 我 们 使 用 这 个 术语 来 指 代 
一 系列 问题 ， 这 些 问题 在 同时 《并 发 地 ) 处 理 很 多 事情 时 出 现 且 必须 
解决 。 并 发 问题 首先 出 现在 操作 系统 本 身 中 。 如 你 所 见 ， 在 上 面 关 于 
虚拟 化 的 例子 中 ， 操 作 系 统 同 时 人 处理 很 多 事情 ， 首 先 运行 一 个 进程 ， 
然后 再 运行 一 个 进程 ， 等 等 。 事 实证 明 ， 这 样 做 会 导致 一 些 深刻 而 有 
趣 的 问题 。 

遗憾 的 是 ， 并 发 问题 不 再 局 限于 操作 系统 本 身 。 事 实 上， 现代 多 线程 


(multi-threaded) 程序 也 存在 相同 的 问题 。 我 们 来 看 一 个 多 线程 程 
序 的 例子 〈 见 网 2.5) 。 









































下 #include <stdio.n> 

2 #include <stdlib.h> 

3 #include "common.h" 

4 

5 volatile int counter = 0; 

6 int. LOoops: 

7 

8 void *xwoOrker (void *arg) { 

9 ne 

10 for (i = 0; i < loops; i++) { 

11 countertt+; 

12 } 

13 return NULL; 

14 } 

is 

16 int 

了 main(int argc, char *argv[]) 

18 { 

19 if (argc != 2) { 

20 fprintf(stderr, "usage: threads <value>\n"); 
21 exit (1); 

22 } 

23 loops = atoi(argv[1]); 

24 pthread t pl, p2; 

28 printf("Initial value : g%qNxn'"， counter); 
26 

27 Pthread create(&pl, NULL, worker, NULL); 
28 Pthread create (&p2, NULL, worker, NULL); 
29 Pthread join(pl, NULL); 

30 Pthread join(p2, NULL); 

31 printf("Final value » Sd\n, GOounter) 





图 2.5 一 个 多 线程 程序 (threads. c ) 


尽管 目前 你 可 能 完全 不 理解 这 个 例子 〈 在 后 面 关 于 并 发 的 部 分 中 ， 我 
们 将 学 习 更 多 的 内 容 ) ， 但 基本 思想 很 简单 。 主 程序 利用 
Pthread create() 创 建 了 两 个 线程 (thread) 1 外。 你 可 以 将 线程 看 作 
与 其 他 函数 在 同一 内 存 空间 中 运行 的 函数 ， 并 且 每 次 都 有 多 个 线程 处 
于 活动 状态 。 人 每 个 线程 开始 在 一 个 名 为 worker 0 的 函 
数 中 运行 ， 在 该 函数 中 ， 它 只 是 递增 一 个 计数 器 ， 循 环 loops 次 。 


下 面 是 运行 这 个 程序 、 将 变量 loops 的 输入 值 设 置 为 1000 时 的 输出 结 
果 。1oops 的 值 决 定 了 两 个 worker 各 自在 循环 中 增加 共享 计数 器 的 次 
数 。 如 果 1loops 的 值 设 置 为 1000 并 运行 程序 ， 你 认为 计数 器 的 最 终 值 是 
多 少 ? 











关键 问题 ， 如何 构建 正确 的 并 发 程序 


如 果 同 一 个 内 存 空 间 中 有 很 多 并 发 执行 的 线程 ， 如 何 构 建 一 
个 正确 工作 的 程序 ? 操作 系统 需要 什么 原 语 ? 硬件 应 该 提供 
哪些 机 制 ? 我 们 如 何 利用 它们 来 解决 并 发 问题 ? 


prompt> gcc -o thread thread.c -Wall -pthread 
prompt> ./thread 1000 

Initial value : 0 

Final value :2000 


你 可 能 会 猜 到 ， 两 个 线程 完成 时 ， 计 数 器 的 最 终 值 为 2000， 因 为 每 个 
线程 将 计数 增加 1000 次 。 也 就 是 说 ， 当 1oops 的 输入 值 设 为 M 时 ， 我 们 
预计 程序 的 最 终 输 出 为 2W。 但 事实 证 明 ， 事 情 并 不 是 那么 简单 。 让 我 
们 运行 相同 的 程序 ， 但 loops 的 值 更 高 ， 然 后 看 看 会 发 生 什么 : 


prompt> ./thread 100000 
Initial value : 0 





Final value : 143012 // huh?? 
prompt> ./thread 100000 


Initial value : 0 
Final value : 137298 // what the?? 


在 这 次 运行 中 ， 当 我 们 提供 100000 的 输入 值 时 ， 得 到 的 最 终 值 不 是 
200000， 我 们 得 到 的 是 143012。 然 后 ， 当 我 们 再 次 运行 该 程序 时 ， 不 
仅 再 次 得 到 了 错误 的 值 ， 还 与 上 次 的 值 不 同 。 事 实 上 ， 如 果 你 一 遍 叉 
一 遍地 使 用 较 高 的 loops 值 运行 程序 ， 可 能 会 发 现 有 时 甚至 可 以 得 到 正 
确 的 答案 ! 那么 为 什么 会 这 样 ? 


事实 证 明 ， 这 些 奇 怪 的 、 不 寻常 的 结果 与 指令 如 何 执行 有 关 ， 指 令 每 
次 执行 一 条 。 遗 憾 的 是 ， 上 面 的 程序 中 的 关键 部 分 是 增加 共享 计数 器 
的 地 方 ， 它 需要 3 条 指令 : 一 条 将 计数 器 的 值 从 内 存 加 载 到 寄存 器 ， 
一 条 将 其 递增 ， 另 一 条 将 其 保存 回 内 存 。 因 为 这 3 条 指令 并 不 是 以 原 
子 方式 (atomically) 执行 (所 有 的 指令 一 次 性 执行 ) 的 ， 所 以 奇怪 
的 事情 可 能 会 发 生 。 关 于 这 种 并 发 (concurrency) 问题 ， 我 们 将 在 本 
书 的 第 2 部 分 中 详细 讨论 。 




















2.4 持久 性 


本 课程 的 第 三 个 主题 是 持久 性 (persistence) 。 在 系统 内 存 中 ， 数 据 
容易 丢失 ， 因 为 像 DRAM 这 样 的 设备 以 易 失 (volatile) 的 方式 存储 数 
值 。 如 果断 电 或 系统 裔 泪 ， 那 么 内 存 中 的 所 有 数据 都 会 丢失 。 因 此 ， 
我 们 需要 硬件 和 软件 来 持久 地 (persistently) 存储 数据 。 这 样 的 存 
储 对 于 所 有 系统 都 很 重要 ， 因 为 用 户 非 常 关心 他 们 的 数据 。 


人 硬件 以 某 种 输入 /输出 (Input/0utput，I/0) 设备 的 形式 出 现 。 在 现 
代 系 统 中 ， 硬 盘 驱 动 器 (hard drive) 是 存储 长 期 保存 的 信息 的 通用 
存储 库 ， 尽 管 固态 硬盘 (Solid-State Drive，SSD) 正在 这 个 领域 取 
得 领先 地 位 。 


操作 系统 中 管理 磁盘 的 软件 通常 称 为 文件 系统 〈file system) 。 因 此 
它 负责 以 可 靠 和 高 效 的 方式 ， 将 用 户 创建 的 任何 文件 〈file) 存储 在 
系统 的 磁盘 上 。 





不 像 操 作 系 统 为 CPU 和 内 存 提供 的 抽象 ， 操 作 系 统 不 会 为 每 个 应 用 程序 
创建 专用 的 虚拟 磁盘 。 相 反 ， 它 假设 用 户 经 常 需要 共享 (share) 文件 
中 的 信息 。 例 如 ， 在 编写 C 程 序 时 ， 你 可 能 首先 使 用 编辑 器 (例如 
EmacsLz) 来 创建 和 编辑 C 文 件 (emacs -nw main.c) 。 之 后 ， 你 可 以 
使 用 编译 器 将 源 代 码 转 换 为 可 执行 文件 (例如 ，gcc -o main 
main.c) 。 再 之 后 ， 你 可 以 运行 新 的 可 执行 文件 〈 例 如 . /main) 。 
此 ， 你 可 以 看 到 文件 如 何在 不 同 的 进程 之 间 共 享 。 首先 ，Emacs 创 建 一 
个 文件 ， 作 为 编译 器 的 输入 。 编 译 器 使 用 该 输入 文件 创建 一 个 新 的 可 
执行 文件 〈 可 选 一 门 编译 器 课程 来 了 解 细节 ) 。 最 后 ， 运 行 新 的 可 执 
行文 件 。 这 样 一 个 新 的 程序 就 诞生 了 ! 


为 了 更 好 地 理解 这 一 点 ， 我 们 来 看 一 些 代 码 。 图 2. 6 展示 了 一 些 代 码 ， 
创建 包含 字符 串 “hello world” 的 文件 (/tmp/file) 。 

















下 #include <stdio.h> 

2 #include <unistd.nhn> 

3 #include <assert.n> 

4 #include <fcntl.nh> 

5 #include <sys/types.h> 

6 

及 int 

8 main(int argc, char *argv[]) 

9 { 

10 int fd = open("/tmp/file", O WRONLY | O CREAT | O TRUNC, S_ IRWXU); 
11 assert (fd > -1); 

12 int rc = write (fd, "hello world\n", 13); 
13 assert (rc == 13);，; 

14 close (fqd); 

15 return 0; 








图 2.6 一 个 进行 1/0 的 程序 (io. c) 








关键 问题 : 如何 持久 地 存储 数据 


文件 系统 是 操作 系统 的 一 部 分 ， 负 责 管 理 持久 的 数据 。 持 久 
性 需要 哪些 技术 才能 正确 地 实现 ? 需要 哪些 机 制 和 策略 才能 
高 性 能 地 实现 ? 面 对 便 件 和 软件 故障 ， 可 靠 性 如 何 实现 ? 





为 了 完成 这 个 任务 ， 该 程序 同 操作 系统 发 出 3 个 调用 。 第 一 个 是 对 
open() 的 调用 ， 它 打开 文件 并 创建 它 。 第 二 个 是 write() ， 将 一 些 数据 
写 入 文件 。 第 三 个 是 close() ， 只 是 简单 地 关闭 文件 ， 从 而 表明 程序 不 
会 再 问 它 写 入 更 多 的 数据 。 这 些 系 统 调 用 (system call) 被 转 到 称 为 
文件 系统 (file system) 的 操作 系统 部 分 ， 然 后 该 系统 处 理 这 些 请 
求 ， 并 同 用 户 返 回 某 种 错误 代码 。 


你 可 能 想 知 道 操作 系统 为 了 实际 写 入 磁盘 而 做 了 什么 。 我 们 会 告诉 
你 ， 但 你 必须 答应 先 团 上 眼睛 。 这 是 不 愉快 的 。 文 件 系统 必须 做 很 多 
工作 : 首先 确定 新 数据 将 驻 留 在 磁盘 上 的 哪个 位 置 ， 然 后 在 文件 系统 
所 维护 的 各 种 结构 中 对 其 进行 记录 。 这 样 做 需要 向 底层 存储 设备 发 出 
1/0 请 求 ， 以 读 取现 有 结构 或 更 新 〈 写 入 ) 它们 。 所 有 写 过 设备 驱动 程 
序 ! 引 (device driver) 的 人 都 知道 ， 让 设备 代表 你 执行 某 项 操作 是 一 
个 复杂 而 详细 的 过 程 。 它 需要 深入 了 解 低 级 别 设备 接口 及 其 确切 的 语 
义 。 笠 运 的 是 ， 操 作 系统 提供 了 一 种 通过 系统 调用 来 访问 设备 的 标准 
和 简单 的 方法 。 因 此 ，0S 有 时 被 视 为 标准 库 (standard library) 。 


当然 ， 关 于 如 何 访 问 设备 、 文 件 系 统 如 何在 所 述 设 备 上 持久 地 管理 数 
据 ， 还 有 更 多 细节 。 出 于 性 能 方面 的 原因 ， 大 多 数 文 件 系 统 首先 会 延 
迟 这 些 写 操作 一 段 时 间 ， 和 希望 将 其 批量 分 组 为 较 大 的 组 。 为 了 处 理 写 
入 期 间 系 统 朋 溃 的 问题 ， 大 多 数 文件 系统 都 包含 某 种 复杂 的 写 入 协 
议 ， 如 日 志 (journaling) 或 写 时 复制 (copy-on-write) ， 仔 细 排 序 
写 入 磁盘 的 操作 ， 以 确保 如 果 在 写 入 序列 期 间 发 生 故 障 ， 系 统 可 以 在 
之 后 恢复 到 合理 的 状态 。 为 了 使 不 同 的 通用 操作 更 高 效 ， 文 件 系统 采 
用 了 许多 不 同 的 数据 结构 和 访问 方法 ， 从 简单 的 列表 到 复杂 的 B 树 。 如 
果 所 有 这 些 都 不 太 明 白 ， 那 很 好 ! 在 本 书 的 第 3 部 分 天 于 持久 性 
(persistence) 的 讨论 中 ， 我 们 将 详细 讨论 所 有 这 些 内 容 ， 在 其 中 讨 
论 设备 和 I/0， 然 后 详细 讨论 磁盘、RAID 和 文件 系统 。 























2.5 设计 目标 


现在 你 已 经 了 解 了 操作 系统 实际 上 做 了 什么 : 它 取 得 CPU、 内 存 或 磁盘 
等 物理 资源 (resources) ， 并 对 它们 进行 虚拟 化 (virtualize) 。 它 
处 理 与 并 发 (concurrency) 有 关 的 麻烦 且 琼 手 的 问题 。 它 持久 地 
(persistently) 存储 文件 ， 从 而 使 它们 长 期 安全 。 鉴 于 我 们 希望 建 


并 这 样 一 个 系统 ， 所 以 要 有 一 些 目标 ， 以 帮助 我 们 集中 设计 和 实现 ， 
并 在 必要 时 进行 折 中 。 找 到 合适 的 折 中 是 建 并 系统 的 关键 。 


一 个 最 基本 的 目标 ， 是 建立 一 些 抽 象 (abstraction) ， 让 系统 方便 和 
易于 使 用 。 抽 和 象 对 我 们 在 计算 机 科学 中 做 的 每 件 事 都 很 有 帮助 。 抽 象 
使 得 编写 一 个 大 型 程序 成 为 可 能 ， 将 其 划分 为 小 而 且 容 易 理解 的 部 
分 ， 用 Cl81 这 样 的 高 级 语言 编写 这 样 的 程序 不 用 考虑 汇编 ， 用 汇编 写 
代码 不 用 考虑 逻辑 门 ， 用 逻辑 门 来 构建 处 理 器 不 用 太 多 考虑 品 体 管 。 
抽象 是 如 此 重要 ， 有 了 时 我 们 会 忘记 它 的 重要 性 ， 但 在 这 里 我 们 不 会 忘 
记 。 因 此 ， 在 每 一 部 分 中 ， 我 们 将 讨论 随 着 时 间 的 推移 而 发 展 的 一 些 
主要 抽象 ， 为 你 提供 一 种 思考 操作 系统 部 分 的 方法 。 


设计 和 实现 操作 系统 的 一 个 目标 ， 是 提供 高 性 能 (performance) 。 换 
言 之 ， 我 们 的 目标 是 最 小 化 操作 系统 的 开销 (minimize the 
overhead) 。 虚 拟 化 和 让 系统 易于 使 用 是 非常 值得 的 ， 但 不 会 不 计 成 
本 。 因 此 ， 我 们 必须 努力 提供 虚拟 化 和 其 他 操作 系统 功能 ， 同 时 没有 
过 多 的 开销 。 这 些 开销 会 以 多 种 形式 出 现 ， 额外 时 间 (更 多 指令 ) 和 
额外 空间 (内 存 或 磁盘 上 ) 。 如 果 有 可 能 ， 我 们 会 寻求 解决 方案 ， 尽 
量 减 少 一 种 或 两 种 。 但 是 ， 完 美 并 非 总 是 可 以 实现 的 ， 我 们 会 注意 到 
这 一 点 ， 并 且 “〈 在 适当 的 情况 下 ) 容忍 它 。 


男 一 个 目标 是 在 应 用 程序 之 间 以 及 在 0S 和 应 用 程序 之 间 提 供 保护 
(protection) 。 因 为 我 们 希望 让 许多 程序 同时 运行 ， 所 以 要 确保 一 
个 程序 的 恶意 或 偶然 的 不 良 行为 不 会 损害 其 他 程序 。 我 们 当然 不 希望 
应 用 程序 能 够 损害 操作 系统 本 身 〈 因 为 这 会 影响 系统 上 运行 的 所 有 程 
序 ) 。 保 护 是 操作 系统 基本 原理 之 一 的 核心 ， 这 就 是 隔离 
Gisolation) 。 让 进程 彼此 隅 离 是 保护 的 关键 ， 因 此 决定 了 0S 必 须 执 
行 的 大 部 分 任务 。 


操作 系统 也 必须 不 间断 运行 。 当 它 失 效 时 ， 系 统 上 运行 的 所 有 应 用 程 
序 也 会 失效 。 由 于 这 种 依赖 性 ， 操 作 系 统 往往 力求 提供 高 度 的 可 靠 性 
(reliability) 。 随 着 操作 系统 变 得 越 来 越 复 杂 (有 时 包含 数 百 万 行 
代码 ) ， 构 建 一 个 可 靠 的 操作 系统 是 一 个 相当 大 的 挑战 : 事实 上 ， 该 
领域 的 许多 正在 进行 的 研究 (包括 我 们 自己 的 一 些 工 作 [BS+09， 
SS+10] ) ， 正 是 专注 于 这 个 问题 。 


其 他 目标 也 是 有 道理 的 : 在 我 们 日 益 增长 的 绿色 世界 中 ， 能 源 效率 
(energy-efficiency) 非常 重要 ; 安全 性 (security) (实际 上 是 保 


























护 的 扩展 ) 对 于 恶意 应 用 程序 至 关 重 要 ， 特 别 是 在 这 高 度 联 网 的 时 
代 。 随 着 操 作 系 统 在 越 来 越 小 的 设备 上 运行 ， 移 动 性 〈mobility) 变 
得 越 来 越 重 要 。 根 据 系 统 的 使 用 方式 ， 操 作 系统 将 有 不 同 的 目标 ， 因 
此 可 能 至 少 以 稍微 不 同 的 方式 实现 。 但 是 ， 我 们 会 看 到 ， 我 们 将 要 介 
站 
Hs 








2.6 简单 历史 


在 结束 本 章 之 前 ， 让 我 们 简单 介绍 一 下 操作 系统 的 开发 历史 。 就 像 任 
何 由 人 类 构建 的 系统 一 样 ， 随 着 时 间 的 推移 ， 操 作 系 统 中 积累 了 一 些 
好 想法 ， 工 程 师 们 在 设计 中 学 到 了 重要 的 东西 。 在 这 里 ， 我 们 简单 介 
绍 一 下 操作 系统 的 几 个 发 展 阶段 。 更 丰富 的 阐述 ， 请 参阅 Brinch 
Hansen 关 于 操作 系统 历史 的 佳作 [BH00]。 


早期 操作 系统 : 只 是 一 些 库 


一 开始 ， 操 作 系 统 并 没有 做 太 多 事情 。 基 本 上 ， 它 只 是 一 组 常用 函数 
库 。 例 如 ， 不 是 让 系统 中 的 每 个 程序 员 都 编写 低级 1/0 处 理 代码 ， 而 是 
让 “0S” 提 供 这 样 的 API， 这 样 开发 人 员 的 工作 更 加 轻松 。 


通常 ， 在 这 些 老 的 大 型 机 系统 上 ， 一 次 运行 一 个 程序 ， 由 操作 员 来 控 
制 。 这 个 操作 员 完 成 了 你 认为 现代 操作 系统 会 做 的 许多 事情 〈 例 如， 
决定 运行 作业 的 顺序 )。 如 果 你 是 一 个 聪明 的 开发 人 员 ， 就 会 对 这 个 
操作 员 很 好 ， 这 样 他 们 可 以 将 你 的 工作 移动 到 队列 的 前 端 。 


这 种 计算 模式 被 称 为 批 (batch) 处 理 ， 先 把 一 些 工作 准备 好 ， 然 后 由 
操作 员 以 “分 批 ” 的 方式 运行 。 此 时 ， 计 算 机 并 没有 以 交互 的 方式 使 
用 ， 因 为 这 样 做 成 本 太 高 : 让 用 户 坐 在 计算 机 前 使 用 它 ， 大 部 分 时 间 
它 都 会 内置， 所 以 会 导致 设施 每 小 时 浪费 数 和 干 美元 [BH00]。 











超越 库 : 保护 


在 超越 常用 服务 的 简单 库 的 发 展 过 程 中 ， 操 作 系统 在 管理 机 器 方面 扮 
演 着 更 为 重要 的 角色 。 其 中 一 个 重要 方面 是 意识 到 代表 操作 系统 运行 
的 代码 是 特殊 的 。 它 控制 了 设备 ， 因 此 对 待 它 的 方式 应 该 与 对 待 正常 
应 用 程序 代码 的 方式 不 同 。 为 什么 这 样 ? 好 吧 ， 想 象 一 下 ， 假 设 允 许 
任何 应 用 程序 从 磁盘 上 的 任何 地 方 读 取 。 因 为 任何 程序 都 可 以 读 取 任 
何 文件 ， 所 以 隐私 的 概念 消失 了 。 因 此 ， 将 一 个 文件 系统 (file 
system) 《管理 你 的 文件 ) 实现 为 一 个 库 是 没有 意义 的 。 实 际 上 ， 还 
需要 别 的 东西 。 


因此 ， 系 统 调 用 (system call) 的 概念 诞生 了 ， 它 是 Atlas 计 算 系 统 
[K+61，L78] 率先 采 用 的 。 不 是 将 操作 系统 例 程 作为 一 个 库 来 提供 (你 
只 需 创 建 一 个 过 程 调 用 (procedure call) 来 访问 它们 ) ， 这 里 的 想 
法 是 添加 一 些 特殊 的 硬件 指令 和 硬件 状态 ， 让 癌 操 作 系 统 过 渡 变 为 更 
正式 的 、 受 控 的 过 程 。 


系统 调用 和 过 程 调 用 之 间 的 关键 区 别 在 于 ， 系 统 调用 将 控制 转移 〈( 跳 
转 ) 到 0S 中 ， 同 时 提高 硬件 特权 级 别 (hardware privilege 
level) 。 用 户 应 用 程序 以 所 谓 的 用 户 模 式 (user mode ) 运行 ， 这 意 
味 着 硬件 限制 了 应 用 程序 的 功能 。 例 如 ， 以 用 户 模 式 运 行 的 应 用 程序 
通 负 不 能 发 起 对 磁盘 的 I/0 请 求 ， 不 能 访问 任何 物理 内 存 页 或 在 网 络 上 
发 送 数据 包 。 在 发 起 系统 调用 时 [通常 通过 一 个 称 为 陷阱 (trap) 的 
特殊 硬件 指令 ]， 硬 件 将 控制 转移 到 预先 指定 的 陷阱 处 理 程序 (trap 
handler ) 〈 即 预先 设置 的 操作 系统 ) ， 并 同时 将 特权 级 别提 升 到 内 核 
模式 〈kernel mode) 。 在 内 核 模式 下 ， 操 作 系 统 可 以 完全 访问 系统 的 
硬件 ， 因 此 可 以 执行 诸如 发 起 1/0 请 求 或 为 程序 提供 更 多 内 存 等 功能 。 
当 操 作 系 统 完成 请 求 的 服务 时 ， 它 通过 特殊 的 陷阱 返回 (return- 
from-trap〉 指令 将 控制 权 交 还 给 用 户 ， 该 指令 返回 到 用 户 模 式 ， 同 时 
将 控制 权 交 还 给 应 用 程序 ， 回 到 应 用 离开 的 地 方 。 


























多 道 程序 时 代 


操作 系统 的 真正 兴起 在 大 主机 计算 时 代 之 后 ， 即 小 型 机 
Cminicomputer ) 时 代 。 像 数字 设备 公司 (DEC) 的 PDP 系 列 这 样 的 经 
典 机 器 ， 让 计算 机 变 得 更 加 实惠 。 因 此 ， 不 再 是 每 个 大 型 组 织 拥有 一 
台 主 机 ， 而 是 组 织 内 的 一 小 群 人 可 能 拥有 自己 的 计算 机 。 毫 不 奇怪 ， 
这 种 成 本 下 降 的 主要 影响 之 一 是 开发 者 活动 的 增加 。 更 聪明 的 人 接触 
到 计算 机 ， 从 而 让 计算 机 系统 做 出 更 有 趣 和 漂亮 的 事情 。 


特别 是 ， 由 于 希望 更 好 地 利用 机 器 资源 ， 多 道 程 序 
(multiprogramming) 变 得 很 普遍 。 操 作 系 统 不 是 一 次 只 运行 一 项 作 
业 ， 而 是 将 大 量 作业 加 载 到 内 存 中 并 在 它们 之 间 快 速 切 换 ， 从 而 提高 
CPU 利用 率 。 这 种 切换 非常 重要 ， 因 为 I/0 设 备 很 慢 。 在 处 理 I/0 时 让 程 
J 浪费 了 CPU 时 间 。 那 么 ， 为 什么 不 切换 到 另 一 份 工作 并 运 
行 一 段 时 间 ? 


在 1/0 进 行 和 任务 中 断 时 ， 要 支持 多 道 程序 和 重 车 运行 。 这 一 愿望 迫使 
操作 系统 创新 ， 沿 着 多 个 方向 进行 概念 发 展 。 内 存 保护 (memory 
protection) 等 问题 变 得 重要 。 我 们 不 希望 一 个 程序 能 够 访问 另 一 个 
程序 的 内 存 。 了 解 如 何 处 理 多 道 程 序 引 入 的 并 发 〈concurrency) 问题 
也 很 关键 。 在 中 断 存 在 的 情况 下 ， 确 保 操 作 系 统 正 常 运行 是 一 个 很 大 
的 挑战 。 我 们 将 在 本 书后 面 研 究 这 些 问 题 和 相关 主题 。 


当时 主要 的 实际 进展 之 一 是 引入 了 UNIX 操 作 系 统 ， 主 要 归功 于 贝尔 实 
验 室 〈 电 话 公 司 ) 的 Ken Thompson 和 Dennis Ritchie。UNIX 从 不 同 的 
操作 系统 获得 了 许多 好 的 想法 (特别 是 来 自 Multics [072]， 还 有 一 些 
来 自 TENEX [B+72] 和 Berkeley 分 时 系统 [S+68j] 等 系统 ) ， 但 让 它们 更 
简单 易 用 。 很 快 ， 这 个 团队 就 癌 世 界 各 地 的 人 们 发 送 含 有 UNIX 源 代码 
J 其 中 许多 人 随后 参与 并 添加 到 系统 中 。 请 参阅 补充 了 解 更 多 
细节 也 :。 











摩登 时 代 


除了 小 型 计算 机 之 外 ， 还 有 一 种 新 型 机 器 ， 便 宜 ， 速 度 更 快 ， 而 且 适 
用 于 大 众 : 今天 我 们 称 之 为 个 人 计算 机 (Personal Computer，PC) 。 
在 苹果 公司 早期 的 机 回 〈 如 Apple II) 和 IBM PC 的 引领 下 ， 这 种 新 机 





句 很 快 就 成 为 计算 的 主导 力量 ， 因 为 它们 的 低 成 本 让 每 个 朱子 上 都 有 
一 台 机 器 ， 而 不 是 每 个 工作 小 组 共享 一 台 小 型 机 。 


| 对 于 操作 系统 来 说 ， 个 人 计算 机 起 初代 表 了 一 次 巨大 的 倒 
因为 早期 的 系统 瑟 记 了 〈 或 从 未 知道 ) 小 型 机 时 代 的 经 验 教 训 。 
例如 早期 的 操作 系统 ， 各 DOS (来 目 微 软 的 磁盘 操作 系统 )， 并 不 认 
为 内 存 保 护 很 重要 。 因 此 ， 和 恶意 程序 〈 或 者 只 是 一 个 编程 丰 好 的 应 用 
程序 ) 可 能 会 在 整个 内 存 中 乱 写 乱 七 八 精 的 东西 。 一 代 mac0S (V9 及 
更 早 版 本 ) 采取 合作 的 方式 进行 作业 调度 。 因 此 ， 意外 陷入 无 限 循 和 
的 线程 可 能 会 占用 整个 系统 ， 从 而 导致 重新 启动 。 这 一 代 系 统 中 遗漏 
a 0 

I 讨论 。 


幸运 的 是 ， 经 过 一 段 时 间 的 苦难 后 ， 小 型 计算 机 操作 系统 的 老 功 能 

始 进入 台式 机 。 例 如 ，mac0S X 的 核心 是 UNIX， 包括 人 们 期 望 从 这 和 样 
一 个 成 熟 系统 中 获得 的 所 有 功能 。Windows 在 计算 历史 中 同样 采用 了 许 
多 伟大 的 思想 ， 特 别 是 从 Windows NT 开始 ， 这 是 微软 操作 系统 技术 的 
一 次 巨大 飞跃 。 即 使 在 今天 的 手机 上 运行 的 操作 系统 (如 Linux) ， 也 
更 像 小 型 机 在 20 世 纪 70 年 代 运 行 的 ， 而 不 像 20 世 纪 80 年 代 PC 运 行 的 那 
种 操作 系统 。 很 高 兴 看 到 在 操作 系统 开发 易 盛 时 期 出 现 的 好 想法 已 经 
进入 现代 世界 。 更 好 的 是 ， 这 些 想 法 不 断 发 展 ， 为 用 户 和 应 用 程序 提 
供 更 多 功能 ， 让 现代 系统 更 加 完善 。 

















补充 : UNIX 的 重要 性 


在 操作 系统 的 历史 中 ，UNIX 的 重要 性 举足轻重 。 受 早期 系统 
(特别 是 MIT 著 名 的 Multics 系 统 ) 的 影响 ，UNIX 汇 集 了 许多 
了 不 起 的 思想 ， 创 造 了 既 简 单 义 强大 的 系统 。 


最 初 的 “贝尔 实验 室 ”UNIX 的 基础 是 统一 的 原则 ， 即 构建 小 
而 强大 的 程序 ， 这 些 程序 可 以 连接 在 一 起 形成 更 大 的 工作 
流 。 在 你 输入 命令 的 地 方 ，shel1 提 供 了 诸如 管道 (pipe) 之 
类 的 原 语 ， 来 支持 这 样 的 元 (meta-level) 编程 ， 因 此 很 容 
易 将 程序 串 起 来 完成 更 大 的 任务 。 例 如 ， 要 查找 文本 文件 中 
包含 单词 “foo” 的 行 ， 然 后 要 计算 存在 多 少 行 ， 请 键入 : 








grep foo file.txt | we -1， 从 而 使 用 grep 和 wc (单词 计 
数 ) 程序 来 实现 你 的 任务 。 


UNIX 环 境 对 于 程序 员 和 开发 人 员 都 很 友好 ， 并 为 新 的 C 编 程 语 
言 提供 了 编译 器 。 程 序 员 很 容易 编写 目 己 的 程序 并 分 享 它 
们 ， 这 使 得 UNIX 非 常 受 欢迎 。 作 为 开放 源码 软件 (open- 
source software) 的 早期 形式 ， 作 者 同 所 有 请 求 的 人 免费 提 
供 副 本 ， 这 可 能 帮助 很 大 。 


代码 的 可 得 性 和 可 读 性 也 非常 重要 。 用 C 语 言 编写 的 美丽 的 小 
内 核 吸引 其 他 人 摆弄 内 核 ， 添 加 新 的 、 很 酷 的 功能 。 例 如 ， 
由 Bill Joy 领 导 的 伯克利 创业 团队 发 布 了 一 个 非常 棒 的 发 行 
版 (Berkeley Systems Distribution，BSD) ， 该 发 行 版 拥 
有 先进 的 虚拟 内 存 、 文 件 系统 和 网 络 子 系统 。Joy 后 来 与 朋友 


共同 创立 了 Sun Microsystems 。 


遗憾 的 是 ， 随 着 公司 试图 维护 其 所 有 权 和 利润 ，UNIX 的 传播 
速度 有 所 放 慢 ， 这 是 律师 参与 其 中 的 不 幸 (但 和 常见 的 ) 结 
果 。 许 多 公司 都 有 自己 的 变种 : Sun Microsystems 的 Sun0S、 
IBM 的 AIX、HP 的 HPUX (又 名 H-Pucks) 以 及 SGI 的 IRIX。AT& 
T/ 贝 尔 实验 室 和 这 些 其 他 厂商 之 间 的 法 律 纠纷 给 UNIX 带 来 了 
阴影 ， 许 多 人 想 知 道 它 是 否 能 够 存活 下 来 ， 尤 其 是 Windows 推 
出 后 并 占领 了 大 部 分 PC 市 场 ……… 























补充 : 然后 出 现 了 Linux 


幸运 的 是 ， 对 于 UNIX 来 说 ， 一 位 名 叫 Linus Torvalds 的 年 轻 
芬兰 黑客 决定 编写 他 自己 的 UNIX 版 本 ， 该 版 本 严重 依赖 最 初 
系统 背后 的 原则 和 思想 ， 但 没有 借用 原来 的 代码 集 ， 从 而 避 
免 了 合法 性 问题 。 他 征集 了 世界 各 地 许多 其 他 人 的 帮助 ， 不 
久 ，Linux 就 诞生 了 《同时 也 开局 了 现代 开源 软件 运动 ) 。 


随 着 互联 网 时 代 的 到 来 ， 大 多 数 公 司 〈 如 人 谷歌、 亚马逊 、 
Facebook 和 其 他 公司 ) 选择 运行 Linux， 因 为 它 是 免费 的 ， 可 
以 随时 修改 以 适应 他 们 的 需求 。 事 实 上， 如 果 不 存 在 这 样 一 
个 系统 ， 很 难 想 象 这 些 新 公司 的 成 功 。 随 着 智能 手机 成 为 占 
主导 地 位 的 面向 用 户 的 平台 ， 出 于 许多 相同 的 原因 ，Linux 也 
在 那里 找到 了 用 武之 地 (通过 Android) 。 史 蒂 夫 。 乔 布 斯 将 
他 的 基于 UNIX 的 NeXTStep 操 作 环 境 带 到 了 苹果 公司 ， 从 而 使 
得 UNIX 在 台式 机 上 非常 流行 (尽管 很 多 苹果 技术 用 户 可 能 都 
不 知道 这 一 事实 ) 。 因 此 ，UNIX 今 天 比 以 往 任何 时 候 都 更 加 
ee 








2.7 小结 


至 此 ， 我 们 介绍 了 操作 系统 。 今 天 的 操作 系统 使 得 系统 相对 易于 使 
2 ] 县 乡亲 。 


由 于 篇 幅 的 限制 ， 我 们 在 本 书 中 将 不 会 涉及 操作 系统 的 一 些 部 分 。 例 
如 ， 操 作 系 统 中 有 很 多 网 络 代 码 。 我 们 建议 你 去 上 网 络 课 以 便 更 多 地 
学 习 相 关 知 识 。 同 样 ， 图 形 设备 尤为 重要 。 请 参加 图 形 课程 以 扩展 你 
在 这 方面 的 知识 。 最 后， 一 些 操作 系统 书籍 谈论 了 很 多 关于 安全 性 的 
内 容 。 我 们 会 这 样 做 ， 因 为 操作 系统 必须 在 正在 运行 的 程序 之 间 提 供 
保护 ， 并 为 用 户 提 供 保护 文件 的 能 力 ， 但 我 们 不 会 深入 研究 安全 课程 
中 可 能 遇 到 的 更 深层 次 的 安全 问题 。 


但 是 ， 我 们 将 讨论 许多 重要 的 主题 ， 包 括 CPU 和 内 存 虚 拟 化 的 基础 知 
识 、 并 发 以 及 通过 设备 和 文件 系统 的 持久 性 。 别 担心 ! 虽然 有 很 多 内 
容 要 介绍 ， 但 其 中 大 部 分 都 很 酷 。 这 段 旅程 结束 时 ， 你 将 会 对 计算 机 
系统 的 真实 工作 方式 有 一 个 全 新 的 认识 。 现 在 开始 吧 ! 
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是 最 好 的 读物 。 如 果 你 只 读 一 篇 文章 ， 可 以 了 解 一 下 下 面 的 历史 观点 
[L78] 。 








[IL78] “The Manchester Mark I and Atlas: A Historical 
Perspective” 


S.H. Lavington 


Communications of the ACM archive Volume 21, Issue 1 (January 
1978) ，pages 4-12 


关于 计算 机 系统 早期 发 展 的 历史 和 Atlas 的 开拓 性 工作 。 当 然 ， 我 们 可 
以 自己 阅读 Atlas 的 论文 ， 但 是 这 篇 论文 提供 了 一 个 对 计算 机 系统 的 很 
好 的 概述 ， 并 且 增 加 了 一 些 历史 观点 。 


[072] “The Multics System: An Examination of its Structure” 
Elliott Organick, 1972 


Multics 的 完美 概述 。 这 么 多 好 的 想法 ， 但 它 是 一 个 过 度 设 计 的 系统 ， 
目标 太 多 ， 因 此 从 未 真正 按 预 期 工作 。Arec Brooks 是 所 谓 的 “第 二 系 
统 效应 ”的 典型 例子 L[B75] 。 


[PPO3] “Introduction to Computing Systems: From Bits and 
Gates to C and Beyond” 


Yale N. Patt and Sanjay J. Patel 


McGraw-Hill, 2003 


我 们 最 喜欢 的 计算 系统 图 书 之 一 。 它 从 晶体 管 开 始 讲解 ， 一 直 讲 到 C。 
书 中 早期 的 素材 特别 好 。 


[RT74] “The UNIX Time-Sharing System”Dennis M. Ritchie and 
Ken Thompson 


CACM, Volume 17, Number 7, July 1974, pages 365-375 


关于 UNIX 的 杰出 总 结 ， 作 者 撰写 此 书 时 ，UNIX 正 在 计算 世界 里 占据 统 
治 地 位 。 


[S68] “SDS 940 Time-Sharing System”Scientific Data Systems 
Inc. 


TECHNICAL MANUAL, SDS 90 11168 August 1968 


这 是 我 们 可 以 找到 的 一 本 不 错 的 技术 手册 。 阅 读 这 些 旧 的 系统 文件 ， 
能 看 到 在 20 世 纪 60 年 代 后 期 技术 发 展 的 进程 ， 这 很 有 意思 。 伯 克利 时 
分 系统 〈 最 终 成 为 SDS 系 统 ) 背后 的 核心 构建 者 之 一 是 Butler 
Lampson， 后 来 他 因 系统 贡献 而 获得 图 灵 奖 。 





[SS+10] “Membrane: Operating System Support for Restartable 
File Systems” Swaminathan Sundararaman, Sriram Subramanian, 
Abhishek Rajimwale, Andrea C. Arpaci-Dusseau， Remzi H. 
Arpaci-Dusseau， Michael M. Swift FAST ” 10, San Jose, CA， 
February 2010 


写 自 己 的 课程 注解 的 好 处 是 : 你 可 以 为 自己 的 研究 做 广告 。 但 是 这 篇 
论文 实际 上 非常 简洁 。 当 文件 系统 遇 到 错误 并 骨 涡 时 ，Membrane 会 上 自 
动 重新 局 动 它 ， 所 有 这 些 都 不 会 导致 应 用 程序 或 系统 的 其 他 部 分 受到 


影响 。 





[当然 ， 现 代 处 理 器 在 背后 做 了 许多 奇怪 而 可 怕 的 事情 ， 让 程序 运 
行 得 更 快 。 例 如 ， 一 次 执行 多 条 指令 ， 甚 至 乱 序 执行 并 完成 它们 ! 但 
这 不 是 我 们 在 这 里 关心 的 问题 。 我 们 只 关心 大 多 数 程序 所 假设 的 简单 
模型 ， 指 令 似 乎 按照 有 序 和 顺序 的 方式 逐条 执行 。 








[2]， 汉 “。 详 依 曼 是 计算 系统 的 早期 先驱 之 一 。 他 还 完成 了 关于 博弈 论 
和 麻子 弹 的 开创 性 工作 ， 并 在 NBA 打 了 6 年 球 。 好 吧 ， 其 中 有 一 件 事 不 


是 真 的 


[3] 操作 系统 的 另 一 个 早期 名 称 是 监管 程序 (super visor ) ， 甚 至 
叫 主 控 程序 (master control program) 。 显 然 ， 后 者 听 起 来 有 些 过 
分 热情 《详情 请 参阅 电影 《Tron》 ) ， 因 此 ， 谢 天 谢 地 ，“ 操 作 系 
统 ” 最 后 胜出 。 


[4]， 请 注音 我 们 如 何 利用 & 符号 同时 运行 4 个 进程 。 这 样 做 会 在 tcsh 
shell 的 后 台 运 行 一 个 作业 ， 这 意味 着 用 户 能 够 立即 发 出 下 一 个 命令 ， 
在 这 个 例子 中 ， 是 另 一 个 运行 的 程序 。 命 令 之 间 的 分 号 允许 我 们 在 
tcsh 中 同时 运行 多 个 程序 。 如 果 你 使 用 的 是 不 同 的 shell (例如 
pe ， 它 的 工作 原理 会 棚 有 不 同 。 关 于 详细 信息 ， 请 阅读 在 线 文 


[5]， 要 让 这 个 例子 能 工作 ， 需 要 确保 禁用 地 址 空间 随机 化 。 事 实证 
明 ， 随 机 化 可 以 很 好 地 抵御 某 些 安全 漏洞 。 请 自行 阅读 更 多 的 相关 资 
料 ， 特 别 是 如 果 你 想 学 习 如 何 通过 堆栈 粉碎 黑客 对 计算 机 系统 的 攻击 
入 侵 。 我 们 不 会 推荐 这 样 的 东西 …… 


[6] 实际 的 调用 应 该 是 小 写 的 pthread_cfeate() 。 大 写 版 本 是 我 们 自 
己 的 包装 函数 ， 它 调用 pthread create()， 并 确保 返回 代码 指示 调用 
成 功 。 详 情 请 参阅 代码 。 


[7]， 你 应 该 用 Emacs。 如 果 用 vi， 则 可 能 会 出 现 问 题 。 如 果 你 用 的 不 
是 真正 的 代码 编辑 器 ， 那 更 糟糕 。 


[8]， 设备 驱动 程序 是 操作 系统 中 的 一 些 代码 ， 它 们 知道 如 何 与 特定 的 
设备 打交道 。 我 们 稍 后 会 详细 讨论 设备 和 设备 驱动 程序 。 

[9]， 你们 中 的 一 些 人 可 能 不 同意 将 C 称 为 高 级 语言 。 不 过 ， 请 记 住 ， 
这 是 一 门 操作 系统 课程 ， 我 们 很 高 兴 不 需要 一 直 用 汇编 语言 写 程序 ! 


[10]， 我 们 将 使 用 补充 和 其 他 相关 文本 框 ， 让 你 注意 到 不 太 适 合 文 本 
主线 的 各 种 内 容 。 有 了 时候， 我 们 甚至 会 用 它们 来 开玩笑 ， 为 什么 在 这 
个 过 程 中 没有 一 点 乐趣 ? 是 的 ， 许 多 笑话 都 很 糟糕 。 




















第 3 章 ”关于 虚拟 化 的 对 话 


教授 : 现在 我 们 开始 讲 操作 系统 3 个 部 分 的 第 1 部 分 一 一 虚拟 化 。 

学 生 : 尊敬 的 教授 ， 什 么 是 虚拟 化 ? 

教授 : 想象 我 们 有 一 个 桃子 。 

学 生 : 桃子 ? (不 可 思议 ) 

教授 : 是 的 ， 一 个 桃子 ， 我 们 称 之 为 物理 (physical) 桃子 。 但 有 很 
多 想 吃 这 个 桃子 的 人 ， 我 们 希望 向 每 个 想 吃 的 人 提供 一 个 属于 他 的 桃 
子 ， 这 样 才 能 皆大欢喜 。 我 们 把 给 每 个 人 的 桃子 称 为 虚拟 〈virtual ) 
桃子 。 我 们 通过 茶 种 方式 ， 从 这 个 物理 桃子 创造 出 许多 虚拟 桃子 。 重 
要 的 是 ， 在 这 种 假象 中 ， 每 个 人 看 起 来 都 有 一 个 物理 桃子 ， 但 实际 上 


不 是 。 

学 生 : 所 以 每 个 人 都 不 知道 他 在 和 别人 一 起 分 享 一 个 桃子 吗 ? 
教授 : 是 的 。 

学 生 : 但 不 管 怎 么 样 ， 实 际 情 况 就 是 只 有 一 个 桃子 啊 。 

教授 : 是 的 ， 所 以 呢 ? 

学 生 : 所 以 ， 如 果 我 和 别人 分 享 同 一 个 桃子 ， 我 一 定 会 发 现 这 个 问 


题 。 








教授 : 是 的 ! 你 说 得 没 错 。 但 吃 的 人 多 才 有 这 样 的 问题 。 多 数 时 间 他 
们 都 在 打上 师 或 者 做 其 他 事情 ， 所 以 ， 你 可 以 在 他 们 打上 时 的 时 候 把 他 手 
中 的 桃子 拿 过 来 分 给 其 他 人 ， 这 样 我 们 就 创造 了 有 许多 虚拟 桃子 的 假 
象 ， 每 人 一 个 桃子 ! 


学 生 : 这 听 起 来 就 像 糟糕 的 竞选 口号 。 教 授 ， 您 是 在 跟 我 讲 计 算 机 知 


识 吗 ? 


教授 : 年 轻 人 ， 看 来 需要 给 你 一 个 更 具体 的 例子 。 以 最 基本 的 计算 机 
资源 CPU 为 例 ， 假 设 一 个 计算 机 只 有 一 个 CPU〔 尽 管 现代 计算 机 一 般 拥 
有 2 个 、4 个 或 者 更 多 CPU) ， 虚 拟 化 要 做 的 就 是 将 这 个 CPU 虚拟 成 多 个 
虚拟 CPU 并 分 给 每 一 个 进程 使 有 用， 因此， 每 个 应 用 都 以 为 自己 在 独占 
CPU， 但 实际 上 只 有 一 个 CPU。 这 样 操作 系统 就 创造 了 美丽 的 假象 一 一 
它 虚 拟 化 了 CPU。 


学 生 : 听 起 来 好 神奇 ， 能 再 多 讲 一 些 吗 ? 它 是 如 何 工作 的 ? 
教授 : 问 得 很 及 时 ， 听 上 去 你 已 经 做 好 开始 学 习 的 准备 了 。 
学 生 : 是 的 ， 不 过 我 还 真有 点 担心 您 又 要 讲 桃子 的 事情 了 。 
教授 : 不 用 担心 ， 毕 竟 我 也 不 喜欢 吃 桃 子 。 那 我 们 开始 学 习 吧 …… 


第 4 章 ” 抽 象 : 进程 





本 章 讨 论 操 作 系统 提供 的 基本 的 抽象 一 一 进程 。 进 程 的 非 正 式 定 义 非 
常 简 单 : 进程 就 是 运行 中 的 程序 。 程 序 本 身 是 没有 生命 周期 的 ， 它 只 
是 存在 磁盘 上 面 的 一 些 指令 〈 也 可 能 是 一 些 静 态 数据 ) 。 是 操作 系统 
让 这 些 字 贡 运行 起 来 ， 证 程序 发 挥 作 用 。 


事实 表明 ， 人 们 常常 希望 同时 运行 多 个 程序 。 比 如 : 在 使 用 计算 机 或 
者 笔记 本 的 时 候 ， 我 们 会 同时 运行 浏览 器 、 邮 件 、 游 戏 、 疼 乐 播放 
器 ， 等 等 。 实 际 上 ， 一 个 正 第 的 系统 可 能 会 有 上 百 个 进程 同时 在 运 
行 。 如 果 能 实现 这 样 的 系统 ， 人 们 就 不 需要 考虑 这 个 时 候 哪 一 个 CPU 是 
可 用 的 ， 使 用 起 来 非常 简单 。 因 此 我 们 的 挑战 是 : 











关键 问题 : 如 何 提 供 有 许多 CPU 的 假象 ? 


虽然 只 有 少量 的 物理 CPU 可 用 ， 但 是 操作 系统 如 何 提供 几乎 有 
无 数 个 CPU 可 用 的 假象 ? 


操作 系统 通过 虚拟 化 〈virtualizing) CPU 来 提供 这 种 假象 。 通 过 让 一 
个 进程 只 运行 一 个 时 间 片 ， 然 后 切换 到 其 他 进程 ， 操 作 系 统 提供 了 存 
在 多 个 虚拟 CPU 的 假象 。 这 就 是 时 分 共享 (time sharing) CPU 技术 ， 

允许 用 户 如 愿 运行 多 个 并 发 进程 。 洪 在 的 开销 就 是 性 能 损失 ， 因 为 如 
果 CPU 必 须 共 享 ， 每 个 进程 的 运行 就 会 慢 一 点 。 


要 实现 CPU 的 虚拟 化 ， 要 实现 得 好 ， 操 作 系统 就 需要 一 些 低级 机 制 以 及 
一 些 高 级 智能 。 我 们 将 低级 机 制 称 为 机 制 mechanism) 。 机 制 是 一 些 
低级 方法 或 协议 ， 实 现 了 所 需 的 功能 。 例 如 ， 我 们 稍 后 将 学 习 如 何 实 
现 上 下 文 切换 (context switch) ， 它 让 操作 系统 能 够 停止 运行 一 个 
程序 ， 并 开始 在 给 定 的 CPU 上 运行 另 一 个 程序 。 所 有 现代 操作 系统 都 采 
用 了 这 种 分 时 机 制 。 





提示 : 使 用 时 分 共享 和 空 分 共享 ) 


时 分 共享 (time sharing) 是 操作 系统 共享 资源 所 使 用 的 最 
基本 的 技术 之 一 。 通 过 允许 资源 由 一 个 实体 使 用 一 小 段 时 
间 ， 然 后 由 男 一 个 实体 使 用 一 小 段 时 间 ， 如 此 下 去 ， 所 请 的 
资源 (例如 ，CPU 或 网 络 链接 ) 可 以 被 许多 人 共享 。 时 分 共享 
的 自然 对 应 技术 是 空 分 共享 ， 资 源 在 空间 上 被 划分 给 希望 使 
用 它 的 人 。 例 如 ， 磁 盘 空 间 目 然 是 一 个 空 分 共享 资源 ， 因 为 
一 旦 将 块 分 配给 文件 ， 在 用 户 删 除 文 件 之 前 ， 不 可 能 将 它 分 
配给 其 他 文件 。 





在 这 些 机 制 之 上 ， 操 作 系 统 中 有 一 些 智 能 以 策略 〈policy) 的 形式 存 
在 。 策 略 是 在 操作 系统 内 做 出 茶 种 决定 的 算法 。 例 如 ， 给 定 一 组 可 能 
的 程序 要 在 CPU 上 和 运行， 操作 系统 应 该 运行 哪个 程序 ? 操作 系统 中 的 调 
度 策略 〈scheduling policy) 会 做 出 这 样 的 决定 ， 可 能 利用 历史 信息 
《例如 ， 哪 个 程序 在 最 后 一 分 钟 运行 得 更 多 ? ) 、 工 作 负 载 知识 《〈 例 
如 ， 运 行 什么 类 型 的 程序 ? ) 以 及 性 能 指标 〈 例 如， 系统 是 否 针对 交 
互 式 性 能 或 吞吐 量 进行 优化 ? ) 来 做 出 决定 。 


4.1 抽象 进程 





操作 系统 为 正在 运行 的 程序 提供 的 抽象 ， 束 是 所 谓 的 进程 
(process) 。 正 如 我 们 上 面 所 说 的 ， 一 个 进程 只 是 一 个 正在 运行 的 程 
序 。 在 任何 时 刻 ， 我 们 都 可 以 清点 它 在 执行 过 程 中 访问 或 影响 的 系统 
的 不 同 部 分 ， 从 而 概括 一 个 进程 。 


为 了 理解 构成 进程 的 是 什么 ， 我 们 必须 理解 它 的 机 器 状态 (machine 
state) : 程序 在 运行 时 可 以 读 取 或 更 新 的 内 容 。 在 任何 时 刻 ， 机 器 的 
哪些 部 分 对 执行 该 程序 很 重要 ? 


进程 的 机 器 状态 有 一 个 明显 组 成 部 分 ， 就 是 它 的 内 存 。 指 令 存 在 内 存 
中 。 正 在 运行 的 程序 读 取 和 写 入 的 数据 也 在 内 存 中 。 因 此 进程 可 以 访 
问 的 内 存 〈 称 为 地 址 空间 ，address space) 是 该 进程 的 一 部 分 。 


























进程 的 机 器 状态 的 男 一 部 分 是 寄存 器 。 许 多 指令 明确 地 读 取 或 更 新 寄 
存 上 器， 因此 显然 ， 它 们 对 于 执行 该 进程 很 重要 。 


请 注意 ， 有 一 些 非常 特殊 的 寄存 器 构成 了 该 机 器 状态 的 一 部 分 。 例 
如 ， 程 序 计数 器 (Program Counter，PC) (有 了 时 称 为 指令 指针 ， 
Instruction Pointer 或 IP) 告诉 我 们 程序 当前 正在 执行 哪个 指令 ; 类 
似 地 ， 栈 指针 (stack pointer ) 和 相关 的 帧 指针 (frame pointer ) 
用 于 管理 函数 参数 栈 、 局 部 变量 和 返回 地 址 。 








提示 : 分 离 策略 和 机 制 


在 许多 操作 系统 中 ， 一 个 通用 的 设计 范式 是 将 高 级 策略 与 其 
低级 机 制 分 开 [L+75] 。 你 可 以 将 机 制 看 成 为 系统 的 “如 何 
Chow) ”问题 提供 答案 。 例 如 ， 操 作 系 统 如 何 执 行 上 下 文 切 
换 ? 策略 为 “哪个 (which〉 ”问题 提供 答案 。 例 如 ， 操 作 系 
统 现在 应 该 运行 哪个 进程 ? 将 两 者 分 开 可 以 轻松 地 改变 策 
上 略 ， 而 不 必 重 新 考虑 机 制 ， 因 此 这 是 一 种 模块 化 
(modularity) 的 形式 ， 一 种 通用 的 软件 设计 原则 。 





最 后 ， 程 序 也 经 党 访 问 持久 存储 设备 。 此 类 I/0 信 息 可 能 包含 当前 打开 
的 文件 列表 。 


4.2 进程 API 





虽然 讨论 真实 的 进程 API 将 推迟 到 第 5 章 讲 解 ， 但 这 里 先 介绍 一 下 操 
作 系 统 的 所 有 接口 必须 包含 哪些 内 容 。 所 有 现代 操作 系统 都 以 某 种 形 
式 提供 这 些 API。 


。 创 建 (create) : 操作 系统 必须 包含 一 些 创建 新 进程 的 方法 。 在 
shell 中 键入 命令 或 双击 应 用 程序 图 标 时 ， 会 调用 操作 系统 来 创建 
新 进程 ， 运 行 指定 的 程序 。 


。 销 毁 〈destroy) : 由 于 存在 创建 进程 的 接口 ， 因 此 系统 还 提供 了 
一 个 强制 销毁 进程 的 接口 。 当 然 ， 很 多 进程 会 在 运行 完成 后 自行 
退出 。 但 是 ， 如 果 它 们 不 退出 ， 用 户 可 能 希望 终止 它们 ， 因 此 停 
止 失 探 进程 的 接口 非常 有 用 。 

。 等待 (wait) : 有 时 等 待 进程 停止 运行 是 有 用 的 ， 因 此 经 常 提供 
某 种 等 待 接口 。 

。 其 他 控制 (miscellaneous control ) : 除了 杀 死 或 等 待 进 程 
外 ， 有 时 还 可 能 有 其 他 控制 。 例 如 ， 大 多 数 操作 系统 提供 某 种 方 
法 来 暂停 进程 〈 停 止 运行 一 段 时 间 ) ， 然 后 恢复 〈 继 续 运 行 ) 。 

。 状 态 (statu) : 通常 也 有 一 些 接口 可 以 获得 有 关 进 程 的 状态 信 
妃 ， 例 如 运行 了 多 长 时 间 ， 或 者 处 于 什么 状态 。 


4.3 进程 创建 : 更 多 细节 


我 们 应 该 揭 开 一 个 谜 ， 就 是 程序 如 何 转 化 为 进程 。 具 体 来 说 ， 操 作 系 
统 如 何 启动 并 运行 一 个 程序 ? 进程 创建 实际 如 何 进 行 ? 


操作 系统 运行 程序 必须 做 的 第 一 件 事 是 将 代码 和 所 有 静态 数据 《〈 例 如 
初始 化 变量 ) 加 载 (load) 到 内 存 中 ， 加 载 到 进程 的 地 址 空间 中 。 程 
序 最 初 以 某 种 可 执行 格式 驻 留 在 磁盘 上 〈disk， 或 者 在 某 些 现代 系统 
中 ， 在 基于 闪存 的 SSD 上 ) 。 因 此 ， 将 程序 和 静态 数据 加 载 到 内 存 中 的 
， ee 并 将 它们 放 在 内 存 中 的 某 
处 〈 见 图 4.1) 。 














| 加 载 : 取得 厂 盘 上 的 
得 序 ， 将 它 读 入 进程 
的 地 址 空间 





磁 失 





图 4. 1 加载: 从 程序 到 进程 


在 早期 的 (或 简单 的 ) 操作 系统 中 ， 加 载 过 程 尽 早 (eagerly) 完成 ， 
即 在 运行 程序 之 前 全 部 完成 。 现 代 操 作 系统 惰性 〈1lazily) 执行 该 过 
程 ， 即 仅 在 程序 执行 期 间 需要 加 载 的 代码 或 数据 片段 ， 才 会 加 载 。 要 
真正 理解 代码 和 数据 的 惰性 加 载 是 如 何 工 作 的 ， 必 须 更 多 地 了 解 分 页 
和 交换 的 机 制 ， 这 是 我 们 将 来 讨论 内 存 虚拟 化 时 要 涉及 的 主题 。 现 
在 ， 只 要 记 住 在 运行 任何 程序 之 前 ， 操 作 系 统 显 然 必须 做 一 些 工作 ， 
才能 将 重要 的 程序 字 节 从 磁盘 读 入 内 存 。 


将 代码 和 静态 数据 加 载 到 内 存 后 ， 操 作 系统 在 运行 此 进程 之 前 还 需要 
执行 其 他 一 些 操作 。 必 须 为 程序 的 运行 时 栈 (run-time stack 或 
stack) 分 配 一 些 内 存 。 你 可 能 已 经 知道 ，C 程 序 使 用 栈 存放 局 部 变 
量 、 隙 数 参 数 和 返回 地 址 。 操 作 系 统 分 配 这 些 内 存 ， 并 提供 给 进程 。 
操作 系统 也 可 能 会 用 参数 初始 化 栈 。 具 体 来 襄 ， 它 会 将 参数 填 入 
main() 函数 ， 即 argc 和 argv 数 组 。 


操作 系统 也 可 能 为 程序 的 堆 〈heap) 分 配 一 些 内 存 。 在 C 程 序 中 ， 堆 用 
于 显 式 请 求 的 动态 分 配 数据 。 程 序 通 过 调用 malloc () 来 请 求 这 样 的 空 
间 ， 并 通过 调用 free 0 来 明确 地 释放 它 。 数 据 结构 (如 链表 、 散 列 
表 、 树 和 其 他 有 趣 的 数据 结构 ) 需要 堆 。 起 初 堆 会 很 小 。 随 着 程序 运 
行 ， 通 过 malloc 0 库 API 请 求 更 多 内 存 ， 操 作 系 统 可 能 会 参与 分 配 更 多 
内 存 给 进程 ， 以 满足 这 些 调用 。 


操作 系统 还 将 执行 一 些 其 他 初始 化 任务 ， 特 别 是 与 输入 /输出 〈IZ0 ) 
相关 的 任务 。 例 如 ， 在 UNIX 系 统 中 ， 默 认 情 况 下 每 个 进程 都 有 3 个 打开 
的 文件 描述 符 (file descriptor) ， 用 于 标准 输入 、 输 出 和 错误 。 这 
些 描述 符 让 程序 轻松 读 取 来 自 终 端的 输入 以 及 打印 输出 到 屏幕 。 在 本 
书 的 第 3 部 分 关于 持久 性 (persistence) 的 知识 中 ， 我 们 将 详细 了 解 
I/0、 文 件 描述 符 等 。 


通过 将 代码 和 静态 数据 加 载 到 内 存 中 ， 通 过 创建 和 初始 化 栈 以 及 执行 
与 I/0 设 置 相关 的 其 他 工作 ，0S 现 在 “终于 ) 为 程序 执行 搭 好 了 舞台 。 
然后 它 有 最 后 一 项 任务 : 启动 程序 ， 在 入 口 处 运行 ， 即 main()。 通 过 
跳 转 到 main 0 例 程 (第 5 章 讨 论 的 专门 机 制 )，0S 将 CPU 的 控制 权 转 移 
到 新 创建 的 进程 中 ， 从 而 程序 开始 执行 。 























4.4 ”进程 状态 





既然 已 经 了 解 了 进程 是 什么 《但 我 们 会 继续 改进 这 个 概念 ) ， 以 及 
《大 致 ) 它 是 如 何 创建 的 ， 让 我 们 来 谈 谈 进 程 在 给 定时 间 可 能 处 于 的 
不 同 状态 〈state) 。 在 早期 的 计算 机 系统 LDV66，V+65] 中 ， 出 现 了 一 
i 于 这 些 状态 之 一 的 概念 。 简 而 言 之， 进程 可 以 处 于 以 下 3 
在 > \ 态 之 一 。 


。 运 行 (running) : 在 运行 状态 下 ， 进 程 正 在 处 理 器 上 运行 。 这 意 
味 着 它 正在 执行 指令 。 

就 绪 〈ready) : 在 就 绪 状 态 下 ， 进 程 已 准备 好 运行 ， 但 由 于 某 种 
原因 ， 操 作 系统 选择 不 在 此 时 运行 。 

阻塞 (blocked) : 在 阻塞 状态 下 ， 一 个 进程 执行 了 某 种 操作 ， 直 
到 发 生 其 他 事件 时 才 会 准备 运行 。 一 个 常见 的 例子 是 ， 当 进程 向 
磁盘 发 起 IZ0 请 求 时 ， 它 会 被 阻塞 ， 因 此 其 他 进程 可 以 使 用 处 理 
器 。 





如 果 将 这 些 状态 映射 到 一 个 图 上 ， 会 得 到 图 4.2。 如 图 4. 2 所 示 ， 可 以 
根据 操作 系统 的 载 量 ， 让 进程 在 就 绪 状 态 和 运行 状态 之 间 转 换 。 从 就 
绪 到 运行 意味 着 该 进程 已 经 被 调度 (scheduled) 。 从 运行 转移 到 就 绪 
意味 着 该 进程 已 经 取消 调度 (descheduled) 。 一 旦 进程 被 阻塞 〈 例 
如 ， 通 过 发 起 1/0 操 作 〉， ，0S 将 保持 进程 的 这 种 状态 ， 直 到 发 生 某 种 事 
件 ( 例 如 ，I/0 完 成 )。 此 时 ， 进 程 再 次 转 入 就 绪 状 态 (也 可 能 立即 再 
次 运行 ， 如 果 操 作 系 统 这 样 决 定 〉。 





取消 调度 
调度 





LO: 发 起 LO: 完成 











图 4. 2 ”进程 :状态 转换 


我 们 来 看 一 个 例子 ， 看 两 个 进程 如 何 通过 这 些 状态 转换 。 首 先 ， 想 象 
两 个 正在 运行 的 进程 ， 每 个 进程 只 使 用 CPU〈 它 们 没有 IZ0) 。 在 这 种 
情况 下 ， 每 个 进程 的 状态 可 能 如 表 4. 1 所 示 。 


表 4. 1 跟踪 进程 状态 : 只 看 CPU 
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Process0 现 在 完成 
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运行 Processl 现 在 完成 





在 下 一 个 例子 中 ， 第 一 个 进程 在 运行 一 段 时 间 后 发 起 I/0 请 求 。 此 时 ， 
该 进程 被 阻 寨 ， 让 另 一 个 进程 有 机 会 运行 。 表 4. 2 展示 了 这 种 场景 。 


表 4.2 跟踪 进程 状态 : CPU 和 I/0 
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8 就 绪 运行 Processl 现 在 完成 


10 运行 一 Process0 现 在 完成 


更 具体 地 说 ，Process0 发 起 I/0 并 被 阻塞 ， 等 待 I/0 完 成 。 例 如 ， 当 从 
磁盘 读 取 数据 或 等 待 网 络 数 据 包 时 ， 进 程 会 被 阻塞 。0S 发 现 Process0 
不 使 用 CPU 并 开始 运行 Processl。 当 Processl 运 行 时 ，I/0 完 成 ， 将 
Process0 移 回 就 绪 状 态 。 最 后 ，Processl 结 束 ，Process0 运 行 ， 然 后 


人 


完成 


请 注意 ， 即 使 在 这 个 简单 的 例子 中 ， 操 作 系 统 也 必须 做 出 许多 决定 。 
首先 ， 系 统 必须 决定 在 Process0 发 出 I/0 时 运行 Processl1。 这 样 做 可 以 
通过 保持 CPU 繁 忙 来 提高 资源 利用 率 。 其 次 ， 当 1I/0 完 成 时 ， 系 统 决 定 
不 切换 回 Process0。 目 前 还 不 清楚 这 是 不 是 一 个 很 好 的 决定 。 你 怎么 
看 ? 这些 类 型 的 决策 由 操作 系统 调度 程序 完成 ， 这 是 我 们 在 未 来 几 章 


讨论 的 主题 。 


























4.5 数据 结构 


操作 系统 是 一 个 程序 ， 和 其 他 程序 一 样 ， 它 有 一 些 关键 的 数据 结构 来 
跟踪 各 种 相关 的 信息 。 例 如 ， 为 了 跟踪 每 个 进程 的 状态 ， 操 作 系 统 可 
能 会 为 所 有 就 绪 的 进程 保留 某 种 进程 列表 (process list) ， 以 及 跟 
踪 当 前 正在 运行 的 进程 的 一 些 附 加 信息 。 操 作 系统 还 必须 以 某 种 方式 
跟踪 被 阻塞 的 进程 。 当 IZ0 事 件 完成 时 ， 操 作 系 统 应 确保 唤醒 正确 的 进 
程 ， 让 它 准 备 好 再 次 运行 。 


图 4. 3 展示 了 0S 需 要 跟踪 xv6 内 核 中 每 个 进程 的 信息 类 型 [CK+08] 。“ 真 
正 的 ”操作 系统 中 存在 类 似 的 进程 结构 ， 如 Linux 、mac0S X 或 
Windows。 查 看 它们 ， 看 看 有 多 复杂 。 


从 图 4. 3 中 可 以 看 到 ， 操 作 系 统 退 踪 进 程 的 一 些 重 要 信息 。 对 于 停止 的 
进程 ， 寄 存 器 上 下 文 将 保存 其 寄存 器 的 内 容 。 当 一 个 进程 停止 时 ， 它 














的 寄存 器 将 被 保存 到 这 个 闪存 位 置 。 通 过 恢复 这 上 坚 寄存 器 《将 它们 的 
值 放 回 实 际 的 物理 寄存 器 中 ) ， 操 作 系统 可 以 恢复 运行 该 进程 。 我 们 
将 在 后 面 的 章节 中 更 多 地 了 解 这 种 技术 ， 它 被 称 为 上 下 文 切 换 


(context Switch) 。 





// the registers xv6 will save and restore 
// to stop and subsequently restart a process 
struct context { 





int eip; 
int esp; 
int ebx; 
int ecx; 
int edx; 
int esi; 
int edi; 
int ebp; 
}; 
// the different states a process can be in 








enum proc state { UNUSE EMBRYO, SLEEPING, 
RUNNABLE, RUNNING, ZOMBIE }; 





已 























// the information xv6 tracks about each process 
// including its register context and state 
steruct Bros 





char *mem; // Start of process memory 
uint sz; // Size of process memory 
char *kstack; // Bottom of kernel stack 
// for this process 
enum proc state state; // Process state 
int pid; // Process ID 
struct proc *parent; // Parent process 
void *chan; // If non-zero, sleeping on chan 
int killed; // If non-zero, have been killed 
struct file *ofile[NOFILE]; // Open files 
struct inode *cwd; // Current directory 
struct context context;} // Switch here to run process 
struct trapframe *tf; // Trap frame for the 


// current interrupt 


图 4. 3 ”xv6 的 proc 结 构 


从 图 4. 3 中 还 可 以 看 到 ， 除 了 和 运行、 就绪 和 阻塞 之 外 ， 还 有 其 他 一 些 进 
程 可 以 处 于 的 状态 。 有 时 候 系 统 会 有 一 个 初始 〈initial) 状态 ， 表 示 
进程 在 创建 时 处 于 的 状态 。 男 外 ， 一 个 进程 可 以 处 于 已 退出 但 尚未 清 
理 的 最 终 (final ) 状态 (在 基于 UNIX 的 系统 中 ， 这 称 为 僵尸 状态 
由) 。 这 个 最 终 状 态 非 常 有 用 ， 因 为 它 允 许 其 他 进程 (通常 是 创建 进 
程 的 父 进 程 ) 检查 进程 的 返回 代码 ， 并 查看 刚刚 完成 的 进程 是 否 成 功 
执行 〈 通 常 ， 在 基于 UNIX 的 系统 中 ， 程 序 成 功 完成 任务 时 返回 等 ， 全 
则 返回 非 零 ) 。 完 成 后 ， 父 进程 将 进行 最 后 一 次 调用 (例如 ， 

















wait() ) ， 以 等 待 子 进程 的 完成 ， 并 告诉 操作 系统 它 可 以 清理 这 个 正 
在 结束 的 进程 的 所 有 相关 数据 结构 。 


补充 : 数据 结构 一 一 进程 列表 
操作 系统 充满 了 我 们 将 在 这 些 讲 义 中 讨论 的 各 种 重要 数据 结 


构 (data structure) 。 进 程 列 表 (process list) 是 第 一 
个 这 样 的 结构 。 这 是 比较 简单 的 一 种 ， 但 是 ， 任 何 能 够 同时 
运行 多 个 程序 的 操作 系统 当然 都 会 有 类 似 这 种 结构 的 东西 ， 
以 便 跟 踪 系 统 中 正在 运行 的 所 有 程序 。 有 了 时候 人 们 会 将 存储 
关于 进程 的 信息 的 个 体 结 构 称 为 进程 控制 块 (Process 
Control Block，PCB) ， 这 是 谈论 包含 每 个 进程 信息 的 C 结 构 
的 一 种 方式 。 





4.6 小 结 


我 们 已 经 介绍 了 操作 系统 的 最 基本 抽象 .进程 。 它 很 简单 地 被 视 为 一 
个 正在 运行 的 程序 。 有 了 这 个 概念 ， 接 下 来 将 继续 讨论 具体 细节 : 实 
现 进程 所 需 的 低级 机 制 和 以 智能 方式 调度 这 些 进程 所 需 的 高 级 集 略 。 
结合 机 制 和 集 略 ， 我 们 将 加 深 对 操作 系统 如 何 虚拟 化 CPU 的 理解 。 
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Computer Conference, 1965 


一 篇 关于 Multics 的 早期 论文 ， 描述 了 我 们 在 现代 系统 中 看 到 的 许多 基 
本 概念 和 术语 。 计 算 作为 实用 工具 ， 这 背后 的 一 些 愿 景 终于 在 现代 云 
系统 中 得 以 实现 。 


作业 








补充 : 模拟 作业 


模拟 作业 以 模拟 器 的 形式 出 现 ， 你 运行 它 以 确保 理解 某 些 内 
容 。 模 拟 器 通常 是 Python 程 序 ， 它 们 让 你 能 够 生成 不 同 的 问 
题 〈 使 用 不 同 的 随机 种 子 ) ， 也 让 程序 为 你 解决 问题 ( 带 -c 
标志 ) ， 以 便 你 检查 答案 。 使 用 -h 或 -~-help 标 志和 运行 任何 模 
拟 器 ， 将 提供 有 关 模 拟 器 所 有 选项 的 更 多 信息 。 


每 个 模拟 器 附带 的 README 文 件 提供 了 有 关 如 何 运行 它 的 更 多 
详细 信息 ， 其 中 详细 描述 了 每 个 标志 。 





程序 process-run. py 让 你 查看 程序 运行 时 进程 状态 如 何 改变 ， 是 在 使 
用 CPU( 例 如， 执行 相 加 指令 ) 还 是 执行 I/0( 例 如 ， 向 磁盘 发 送 请 求 
并 等 待 它 完 成 ) 。 详 情 请 参阅 README 文 件 。 


问题 








1. 用 以 下 标志 运行 程序 : . /process-run. py -1 5:100, 5:100。CPU 利 
用 率 〈CPU 使 用 时 间 的 百分比 ) 应 该 是 多 少 ? 为 什么 你 知道 这 一 点 ? 利 
用 -c 标 记 查 看 你 的 答案 是 否 正确 。 


2. 现在 用 这 些 标志 运行 : . /process-run. py -1 4:100, 1:0。 这 些 标 
志 指 定 了 一 个 包含 4 条 指令 的 进程 〈 都 要 使 用 CPU) ， 并 且 只 是 简单 地 
发 出 I/0 并 等 待 它 完成 。 完 成 这 两 个 进程 需要 多 长 时 间 ? 利用 -c 检 查 你 
的 答案 是 否 正确 。 


3. 现在 交换 进程 的 顺序 : . /process-run.py -1 1:0, 4:100。 现 在 发 
0 
个 正确 。 


4. 现在 探索 另 一 些 标志 。 一 个 重要 的 标志 是 -$， 它 决定 了 当 进 程 发 出 
LI/0 时 系统 如 何 反 应 。 将 标志 设置 为 SWITCH ON _ END， 在 进程 进行 IZ0 操 
作 时 ， 系 统 将 不 会 切换 到 另 一 个 进程 ， 而 是 等 待 进程 完成 。 当 你 运行 


以 下 两 个 进程 时 ， 会 发 生 什么 情况 ?一 个 执行 LL0， 男 一 个 执行 CPU 工 
作 。 (=1 1:0,4:100 =e =S SWITCH ON RND) 


5. 现在 ， 运 行 相同 的 进程 ， 但 切换 行为 设置 ， 在 等 待 1/0 时 切换 到 男 
一 个 进程 〈(-1 1:0, 4:100 -ce -S SWITCH ON I0) 。 现 在 会 发 生 什 么 ? 
利用 -c 来 确认 你 的 答案 是 否 正 确 。 


6. 男 一 个 重要 的 行为 是 1/0 完 成 时 要 做 什么 。 利 用 -I IO_RUN_LATER， 
当 I/0 完 成 时 ， 发 出 它 的 进程 不 一 定 马 上 运行 。 相 反 ， 当 时 运行 的 进程 
一 直 运 行 。 当 你 运行 这 个 进程 组 合 时 会 发 生 什 么 ? (. /process- 
run.py -1 3:0,5:100,5:100,5:100  -S SWITCH ON I0 -I 
IO0_ RUN_LATER -c -p) 系统 资源 是 否 被 有 效 利 用 ? 


7. 现在 运行 相同 的 进程 ， 但 使 用 -I I0 RUN IMMEDIATE 设 置 ， 该 设置 
立即 运行 发 出 1/0 的 进程 。 这 种 行为 有 何不 同 ? 为 什么 运行 一 个 刚刚 完 
成 1/0 的 进程 会 是 一 个 好 主意 ? 


8. 现在 运行 一 些 随机 生成 的 进程 ， 例 如 -s 1 -1 3:50, 3:50，-s 2 -1 
3:50,3:50，-s 3 -1 3:50, 3:50。 看 看 你 是 否 能 预测 追踪 记录 会 如 何 
变化 ? 当 你 使 用 -I IO RUN IMMEDIATE 与 -Tf I0 RUN LATER 时 会 发 生 什 
么 ? 当 你 使 用 -S SWITCH ON _I0 与 -S SWITCH ON END 时 会 发 生 什么 ? 























册 ， 是 的 ， 僵 尸 状态 。 就 像 真 正 的 僵尸 一 样 ， 这 些 “ 人 僵尸” 相对 容 
易 杀 死 。 但 是 ， 通 常 建议 使 用 不 同 的 技术 。 


第 5 章 ” 插 竹 : 进程 API 


补充 ; 插 叙 


本 章 将 介绍 更 多 系统 实践 方面 的 内 容 ， 包 括 特别 关注 操作 系 
统 的 API 及 其 使 用 方式 。 如 果 不 关 心 实践 相关 的 内 容 ， 你 可 以 
略 过 。 但 是 你 应 该 喜欢 实践 内 容 ， 它 们 通常 在 实际 生活 中 有 
用 。 例 如 ， 公 司 通 常 不 会 因为 不 实用 的 技能 而 聘用 你 。 


本 章 将 讨论 UNIX 系 统 中 的 进程 创建 。UNIX 系 统 采用 了 一 种 非常 有 趣 的 
创建 新 进程 的 方式 ， 即 通过 一 对 系统 调用 : fork (0) 和 exec () 。 进 程 还 
可 以 通过 第 三 个 系统 调用 wait () ， 来 等 待 其 创建 的 子 进 程 执行 完成 。 
本 章 将 详细 介绍 这 些 接口 ， 通 过 一 些 简单 的 例子 来 激发 兴趣 。 





关键 问题 : 如 何 创建 并 控制 进程 


操作 系统 应 该 提供 怎样 的 进程 来 创建 及 控制 接口 ? 如 何 设计 
这 些 接口 才能 既 方便 义 实 用 ? 


5.1 fork () 系统 调用 


系统 调用 fork 0) 用 于 创建 新 进程 [C63] 。 但 要 小 心 ， 这 可 能 是 你 使 用 过 
的 最 奇怪 的 接口 (出 。 具 体 来 说 ， 你 可 以 运行 一 个 程序 ， 代 码 如 图 5. 1 所 
示 。 仁 细 看 这 段 代码 ， 建 议 杀 目 键入 并 运行 ! 





由 #include <stdio.n> 

2 #include <stdlib.n> 

3 #include <unistd.hn> 

4 

5 int 

6 main(int argc, char *argv[]) 

7 { 

8 printf("hello world (pid:%$d)\n", (int) getpid()); 

9 int rc = fork(); 

10 Ef" (EC “< uO) A // fork failed; exit 

11 fprintf(stderr, "fork failed\n"); 

业 儿 exit (1) 

13 } else if (rc == 0) { // child (new process) 

4. printf("hello, I am child (pid:%d)\n", (int) getpidqd()); 
15 } else { // parent goes down this path (main) 
16 printf("hello, I am parent of %d (pid:%d)\n", 

LY rc, (int) getpid()); 

18 } 

19 return 0; 

20 } 


图 5. 1 调用 fork() (pl.c) 
运行 这 段 程 序 (pl.c) ， 将 看 到 如 下 输出 : 


prompt> ./pl 

hello world (pid:29146) 

hello, I am parent of 29147 (pid:29146) 
hello, I am child (pid:29147) 

prompt> 


让 我 们 更 详细 地 理解 一 下 pl.c 到 底 发 生 了 什么 。 当 它 刚 开始 运行 时 ， 
进程 输出 一 条 hello world 信 息 ， 以 及 自己 的 进程 描述 符 (process 
identifier，PID) 。 该 进程 的 PID 是 29146。 在 UNIX 系 统 中 ， 如 果 要 操 
作 某 个 进程 〈 如 终止 进程 ) ， 就 要 通过 PID 来 指明 。 到 目前 为 止 ， 一 切 
正常 5 


紧 接 着 有 趣 的 事情 发 生 了 。 进 程 调用 了 fork (0 系统 调用 ， 这 是 操作 系 
统 提 供 的 创建 新 进程 的 方法 。 新 创建 的 进程 几乎 与 调用 进程 完全 一 
样 ， 对 操作 系统 来 说 ， 这 时 看 起 来 有 两 个 完全 一 样 的 p1 程 序 在 运行 ， 
并 都 从 fork O 系统 调用 中 人 返回。 新 创建 的 进程 称 为 子 进程 (child) ， 
原来 的 进程 称 为 父 进程 (parent ) 。 子 进程 不 会 从 main0 函数 开始 执 
行 〈 因 此 hello world 信 息 只 输出 了 一 次 ) ， 而 是 直接 从 fork( 系统 调 
用 返回 ， 就 好 像 是 它 自 己 调用 了 fork(。 


你 可 能 已 经 注意 到 ， 子 进程 并 不 是 完全 找 贝 了 父 进程 。 具 体 来 说 ， 虽 
然 它 拥 有 自己 的 地 址 空间 ( 即 拥有 自己 的 私有 内 存 ) 、 寄 存 占 、 程 序 








计数 器 等 ， 但 是 它 从 fork0 〇 返回 的 值 是 不 同 的 。 父 进程 获得 的 返回 值 
是 新 创建 子 进 程 的 PID， 而 子 进程 获得 的 返回 值 是 90。 这 个 差别 非常 重 
因为 这 样 就 很 容易 编写 代码 处 理 两 种 不 同 的 情况 〈 像 上 面 那 
ff) 。 


你 可 能 还 会 注意 到 ， 它 的 输出 不 是 确定 的 (deterministic) 。 子 进程 

被 创建 后 ， 我 们 就 需要 关心 系统 中 的 两 个 活动 进程 了 : 子 进程 和 父 进 

程 。 假 设 我 们 在 单个 CPU 的 系统 上 运行 〈 简 单 起 见 ) ， 那 么 子 进 程 或 父 

0 在 上 上面 的 例子 中 ， 父 进程 先 运行 并 输出 信 
。 在 其 他 情况 下 ， 子 进程 可 能 先 运 行 ， 会 有 下 面 的 输出 结果 : 


prompt> ./pl 

hello world (pid:29146) 

hello, I am child (pid:29147) 

hello, I am parent of 29147 (pid:29146) 
prompt> 














Cs (scheduler) 决定 了 某 个 时 刻 哪 个 进程 被 执行 ， 我 们 稍 

后 将 详细 介绍 这 部 分 内 容 。 由 于 CPU 调 度 程 序 非常 复杂 ， 所 以 我 们 不 能 

假设 哪个 进程 会 先 运 行 。 事 实 表 明 ， 这 种 不 确定 性 (non- 

determinism) 会 导致 一 些 很 有 趣 的 问题 ， 特别 是 在 多 线程 程序 
(multi-threaded program ) 中 。 在 本 书 第 2 部 分 中 学 习 并 发 
(concurrency) 时 ， 我 们 会 看 到 许多 不 确定 性 。 








5.2 wait() 系统 调用 


到 目前 为 止 ， 我 们 没有 做 太 多 事情 : 只 是 创建 了 一 个 子 进程 ， 打印 了 
一 些 信息 并 退出 。 事 实 表 明 ， 有 时 候 父 进程 需要 等 待 子 进程 执行 完 
毕 ， 这 很 有 用 。 这 项 任务 由 wait (系统 调用 (或 者 更 完整 的 兄弟 接口 
waitpid() ) 。 图 5. 2 展示 了 更 多 细节 。 


1 #include <stdio.n> 

2 #include <stdlib.h> 

3 #include <unistd.n> 

4 #include <sys/wait.h> 








二 站 七 
main(int argc, char *argv[]) 


{ 


‘OU 


printf("hello world (pid:%$d)\n", (int) getpid()); 


10 int rc = fork(); 


于 二 主 奖 ”《( 主 避 过 -站 》 环 // fork failed; exit 

12 fprintf(stderr, "fork failed\n"); 

13 exit (1); 

14 } else if (rc == 0) { // child (new process) 

下 5 printf("hello, I am child (pid:%d)\n", (int) getpid()) 
16 } else { // parent goes down this path (main) 

17 int wc = wait (NULL); 

18 printf ("hello, I am parent of %d (wc:%d) (pid:%d) \n", 
19 rc, we, (int) getpidqd()); 

20 } 

21 return 0; 

22 } 


图 5. 2 调用 fork() 和 wait () (p2.c) 


在 p2. c 的 例子 中 ， 父 进程 调用 waitO ， 延 迟 自己 的 执行 ， 直 到 子 进 程 
执行 完毕 。 当 子 进 程 结束 时 ，wait O 才 返回 父 进程 。 


上 面 的 代码 增加 了 wait 0 调用， 因此 输出 结果 也 变 得 确定 了 。 这 是 为 
什么 呢 ? 想 想 看 。 


(等 你 想 想 看 …… 好 了 ) 
下 面 是 输出 结果 : 


prompt> ./p2 

hello world (pid:29266) 

hello, I am child (pid:29267) 

hello, I am parent of 29267 (wc:29267) (pid:29266) 
prompt> 


通过 这 段 代 码 ， 现 在 我 们 知道 子 进程 总 是 先 输出 结果 。 为 什么 知道 ? 

好 吧 ， 它 可 能 只 是 碰巧 先 运行 ， 像 以 前 一 样 ， 因 此 先 于 父 进 程 输出 结 

果 。 但 是 ， 如 果 父 进程 磁 巧 先 运 行 ， 它 会 马上 调用 wait () 。 该 系统 调 

用 会 在 子 进程 运行 结束 后 才 返 回 : 半 。 因 此 ， 即 使 父 进程 先 运行 ， 它 也 

SE 
己 言 旦 。 








5.3 最 后 是 exec 0 系统 调用 


最 后 是 exec () 系统 调用 ， 它 也 是 创建 进程 API 的 一 个 重要 部 分 (站 。 这 个 
系统 调用 可 以 让 子 进程 执行 与 父 进程 不 同 的 程序 。 例 如 ， 在 p2. c 中 调 
用 fork，， 这 只 是 在 你 想 运 行 相同 程序 的 拷贝 时 有 用 。 但 时 ， 我 们 常 
常 想 运行 不 同 的 程序 ，exec 0 正好 做 这 样 的 事 ( 见 图 5.3〉。 


prompt> ./p3 
hello world (pid:29383) 
hello, I am child (pid:29384) 
29 107 1030 p3.c 
hello, I am parent of 29384 (wc:29384) (pid:29383) 
prompt> 
1 #include <stdio.n> 











2 #include <stdlib.n> 

3 #include <unistd.h> 

4 #include <string.nhn> 

5 #include <sys/wait.h> 

6 

7 二 这 七 

8 main(int argc, char *argv[]) 

9 { 

10 printf("hello world (pid:%$d)\n", (int) getpid()); 

11 int rc = fork(); 

12 fF (ro < O00) 4 // fork failed; exit 

13 fprintf'(stderr, "fork failed\n"); 

14 exit (1); 

15 } else if (rc == 0) { // child (new process) 

16 printf("hello, I am child (pid:%d)\n", (int) getpid()); 
17 char *myargs[3]; 

18 myargs [0] = strdup ("wc"); // program: "wc" (word count) 
19 myargs[1] = strdup("p3.c"); // argument: file to count 
20 myargs [2] = NULL; // marks end of array 

21 execvp (myargs[0], myargs); // runs word count 

22 printf("this shouldn't print out"); 

23 } else { // parent goes down this path (main) 

24 int wc = wait (NULL); 

25 Printf("hello，I am parent of %q (wc:%d) (pidq:gq) N\n'"y 
26 rc, wc (int) getpiaq() ) 

27 } 

28 return 0; 

29 } 





图 5. 3 调用 fork() 、wait() 和 exec() (p3.c) 


在 这 个 例子 中 ， 子 进程 调用 execvp 0 来 运行 字符 计数 程序 wc。 实 际 
上 ， 它 针对 源 代 码 文件 p3. c 运 行 we， 从 而 告诉 我 们 该 文件 有 多 少 行 、 
多 少 单词 ， 以 及 多 少 字 节 。 


fork () 系统 调用 很 奇怪 ， 它 的 伙伴 exec 0 也 不 一 般 。 给 定 可 执行 程序 
的 名 称 〈 如 wc) 及 需要 的 参数 〈 如 p3.c) 后 ，exec () 会 从 可 执行 程序 
中 加 载 代码 和 静态 数据 ， 并 用 它 缆 与 目 己 的 代码 段 〈 以 及 静态 数 
据 ) ， 扒 、 栈 及 其 他 内 存 空 间 也 会 被 重新 初始 化 。 然 后 操作 系统 就 执 








行 该 程序 ， 将 参数 通过 argv 传 递 给 该 进程 。 因 此 ， 它 并 没有 创建 新 进 
程 ， 而 是 直接 将 当前 运行 的 程序 〈 以 前 的 p3) 奉 换 为 不 同 的 运行 程序 
(wc) 。 子 进程 执行 exec 0) 之后， 几乎 就 像 p3. c 从 未 运行 过 一 样 。 对 
exec() 的 成 功 调用 永远 不 会 返回 。 








5.4 为 什么 这 样 设 计 API 


当然 ， 你 的 心中 可 能 有 一 个 大 大 的 问号 : 为 什么 设计 如 此 奇怪 的 接 
口 ， 来 完成 简单 的 、 创 建新 进程 的 任务 ?好 吧 ， 事 实证 明 ， 这 种 分 离 
fork() 及 exec 0 的 做 法 在 构建 UNIX shell 的 时 候 非常 有 用 ， 因 为 这 给 
了 shell 在 fork 之 后 exec 之 前 运行 代码 的 机 会 ， 这 些 代码 可 以 在 运行 新 
程序 前 改变 环境 ， 从 而 让 一 系列 有 趣 的 功能 很 容易 实现 。 








提示 : 重要 的 是 做 对 事 (LAMPSON 定 律 》 


Lampson 在 他 的 著名 论文 《Hints for Computer Systems 
Design》[L83] 中 曾经 说 过 : “做 对 事 (Get it right) 。 抽 
象 和 简化 都 不 能 蔡 代 做 对 事 。” 有 时 你 必须 做 正确 的 事 ， 当 
你 这 样 做 时 ， 总 是 好 过 其 他 方案 。 有 许多 方式 来 设计 创建 进 
程 的 API， 但 fork () 和 exec() 的 组 合 既 简单 又 极其 强大 。 因 此 
UNIX 的 设计 师 们 做 对 了 。 因 为 Lampson 经 常 “ 做 对 事 ”， 所 以 
我 们 就 以 他 来 命名 这 条 定律 。 











shel1 也 是 一 个 用 户 程序 ! 引 ， 它 首先 显示 一 个 提示 符 (prompt) ， 然 后 
等 竺 用户 输入 。 你 可 以 同 它 输入 一 个 命令 (一 个 可 执行 程序 的 名 称 及 
需要 的 参数 ) ， 大 多 数 情 况 下 ，shell 可 以 在 文件 系统 中 找到 这 个 可 执 
行程 序 ， 调 用 fork 0 创建 新 进程 ， 并 调用 exec (的 某 个 变 体 来 执行 这 
个 可 执行 程序 ， 调 用 wait 0 等 待 该 命令 完成 。 子 进程 执行 结束 后 ， 
shel1l 从 wait 返回 并 再 次 输出 一 个 提示 符 ， 等 得 用 户 输入 下 一 条 命 
~ o 











fork() 和 exec() 的 分 离 ， 让 shel1 可 以 方便 地 实现 很 多 有 用 的 功能 。 比 
如 : 


prompt> wc p3.c > newfile.txt 


在 上 面 的 例子 中 ，wc 的 输出 结果 被 重 定 同 (redirect ) 到 文件 
newfile. txt 中 (通过 newfile. txt 之 前 的 大 于 号 来 指明 重 定 同 )。 
shel1 实 现 结 果 重 定 回 的 方式 也 很 简单 ， 当 完成 子 进 程 的 创建 后 ， 
shel1 在 调用 exec (0) 之 前 先 关 闭 了 标准 输出 (standard output ) ， 打 
开 了 文件 newfile. txt。 这 样 ， 即 将 运行 的 程序 wc 的 输出 结果 束 被 发 送 
到 该 文件 ， 而 不 是 打印 在 屏幕 上 。 


图 5. 4 展示 了 这 样 做 的 一 个 程序 。 重 定向 的 工作 原理 ， 是 基于 对 操作 系 
统管 理 文件 描述 符 方 式 的 假设 。 具 体 来 说 ，UNIX 系 统 从 0 开始 寻找 可 以 
使 用 的 文件 描述 符 。 在 这 个 例子 中 ，STDOUT_FILEN0 将 成 为 第 一 个 可 用 
的 文件 描述 符 ， 因 此 在 open 0 被 调用 时 ， 得 到 赋值 。 然 后 子 进程 向 标 
准 输出 文件 描述 符 的 写 入 《例如 通过 printf() 这 样 的 函数 ) ， 都 会 被 
透明 地 转向 新 打开 的 文件 ， 而 不 是 屏幕 。 


下 面 是 运行 p4. c 的 结果 : 


prompt> ./p4 
prompt> cat p4.output 























32 109 846 p4.c 
prompt> 
业 include <stdio.n> 
2 include <stdlib.nhn> 
3 include <unistd.h> 
4 include <string.nhn> 
5 include <fcntl.h> 
6 include <sys/wait.nhn> 
7 
8 int 
9 main(int argc, char *argv[]) 
10 { 
11 int rc = fork(); 
12 1E (rc -< OQ) 4 // fork failed; exit 
13 fprintf(stderr, "fork failed\n"); 
14 exit (1); 
下 5 } else if (rc == 0) { // child: redirect standard output to a file 
16 close (STDOUT FILENO); 
ey open("./p4.output", O CREAT|O WRONLY|O TRUNC, SS IRWXU); 
18 
19 // now exec "wc"... 
20 char *myargs[3]; 
2 myargs[0] = strdup ("wc"); // program: "wc" (word count) 
22 myargs[1] = strdup ("p4.c"); // argument: file to count 
23 myargs[2] = NULL; // marks end of array 

( 


24 execvp (myargs[0], myargs); // runs word count 


25 } else { // parent goes down this path (main) 
26 int wc = wait (NULL); 


28 return 0; 
29 } 


图 5. 4 之 前 所 有 的 工作 加 上 重 定向 (p4. c ) 


关于 这 个 输出 ， 你 (至 少 ) 会 注意 到 两 个 有 趣 的 地 方 。 首 先 ， 当 运行 
p4 程 序 后 ， 好 像 什 么 也 没有 发 生 。shel1 只 是 打印 了 命令 提示 符 ， 等 待 
用 户 的 下 一 个 命令 。 但 事实 并 非 如 此 ，p4 确 实 调 用 了 fork 来 创建 新 的 
子 进 程 ， 之 后 调用 execvp 0) 来 执行 wec。 屏 幕 上 没有 看 到 输出 ， 是 由 于 
结果 被 重 定 向 到 文件 p4. output 。 其 次 ， 当 用 cat 命 令 打 印 输出 文件 
时 ， 能 看 到 运行 we 的 所 有 预期 输出 。 很 酷 吧 ? 


UNIX 管 道 也 是 用 类 似 的 方式 实现 的 ， 但 用 的 是 pipe 0 系统 调用 。 在 这 
种 情况 下 ， 一 个 进程 的 输出 被 链接 到 了 一 个 内 核 管道 (pipe) 上 《 队 
列 ) ， 男 一 个 进程 的 输入 也 被 连接 到 了 同一 个 管道 上 。 因 此 ， 前 一 个 
进程 的 输出 无 颖 地 作为 后 一 个 进程 的 输入 ， 许 多 命令 可 以 用 这 种 方式 
串联 在 一 起 ， 共 同 完成 某 项 任务 。 比 如 通过 将 grep、wc 命 令 用 管道 连 
接 可 以 完成 从 一 个 文件 中 查找 茶 个 词 ， 并 统计 其 出 现 次 数 的 功能 : 


grep -0 foo file | we -1。 


最 后 ， 我 们 刚才 只 是 从 较 高 的 层面 上 简单 介绍 了 进程 API， 关 于 这 些 系 
统 调用 的 细节 ， 还 有 更 多 需要 学 习 和 理解 。 例 如 ， 在 本 书 第 3 部 分 介 
绍 文件 系统 时 ， 我 们 会 学 习 更 多 关于 文件 描述 符 的 知识 。 现 在 ， 知 道 
fork() 和 exec () 组 合 在 创建 和 操作 进程 时 非常 强大 就 足够 了 。 























补充 : RTFM 一 一 阅读 man 手 册 


很 多 时 候 ， 本 书 提 到 某 个 系统 调用 或 库 函 数 时 ， 会 建议 阅读 
man 手 册 。man 手 册 是 UNIX 系 统 中 最 原生 的 文档 ， 要 知道 它 的 
出 现 甚 至 早 于 网 络 〈Web) 。 


花 时 间 阅 读 man 手 册 是 系统 程序 员 成 长 的 必 经 之 路 。 手 册 里 有 
许多 有 用 的 隐藏 彩蛋 。 尤 其 是 你 正在 使 用 的 shel1 (如 tcsh 或 
bash) ， 以 及 程序 中 需要 使 用 的 系统 调用 (以 便 了 解 返 回 值 
和 异常 情况 )。 














最 后 ， 阅 读 man 手 册 可 以 避免 复 软 。 当 你 询问 同事 某 个 fork 细 
节 时 ， 他 可 能 会 回复 : “RTFM”。 这 是 他 在 有 礼貌 地 督促 你 
阅读 man 手 册 (Read the Man) 。RTFM 中 的 F 只 是 为 这 个 短语 
增加 了 一 点 色彩 …… 





5.5 其 他 API 


除了 上 面 提 到 的 fork (O 、exec 0 〇 和 wait (之 外 ， 在 UNIX 中 还 有 其 他 许 
多 与 进程 交互 的 方式 。 比 如 可 以 通过 kil10 系统 调用 癌 进 程 发 送信 号 
(signal ) ， 包 括 要 求 进程 睡眠 、 终 止 或 其 他 有 用 的 指令 。 实 际 上 ， 
整个 信号 子 系统 提供 了 一 套 丰 富 的 癌 进 程 传递 外 部 事件 的 途径 ， 包 括 
接受 和 执行 这 些 信和 号 。 


此 外 还 有 许多 非常 有 用 的 命令 行 工 具 。 比 如 通过 ps 命令 来 查看 当前 在 
运行 的 进程 ， 阅 读 man 手 册 来 了 解 ps 命令 所 接受 的 参数 。 工 具 top 也 很 
有 用 ， 它 展示 当前 系统 中 进程 消耗 CPU 或 其 他 资源 的 情况 。 有 趣 的 是 ， 
你 闻名 会 发 现 top 命 令 上 自己 就 是 最 占用 资源 的 ， 它 或 许 有 一 点 自 大 狂 。 
此 外 还 有 许多 CPU 检测 工具 ， 让 你 方便 快速 地 了 解 系统 负载 。 比 如 ， 我 
们 总 是 让 MenuMeters (来 自 Raging Menace 公 司 ) 运行 在 Mac 计 算 机 的 
工具 栏 上 ， 这 样 束 能 随时 了 解 当 前 的 CPU 利 用 率 。 一 般 来 说 ， 对 现状 了 
解 得 越 多 越 好 。 


5.6 小 结 


本 章 介 绍 了 在 UNIX 系 统 中 创建 进程 需要 的 API: fork()、exec() 和 
wait()。 更 多 的 细节 可 以 阅读 Stevens 和 Rago 的 著作 LSR05]， 尤 其 是 
关于 进程 控制 、 进 程 关 系 及 信和 号 的 章节 。 其 中 的 智慧 让 人 受益 恨 多 。 
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在 这 里 可 以 找到 使 用 UNIX API 的 所 有 细节 和 妙 处 。 买 下 这 本 书 ! 阅读 
它 ， 最 重要 的 是 靠 它 谋生 。 


补充 : 编码 作业 


编码 作业 是 小 型 练习 。 你 可 以 编写 代码 在 真正 的 机 器 上 运 
行 ， 从 而 获得 一 些 现代 操作 系统 必须 提供 的 基本 API 的 体验 。 
毕竟 ， 你 《可 能 ) 是 一 名 计算 机 科学 家 ， 因 此 应 该 喜欢 纺 
码 ， 对 吧 ? 当然 ， 要 真正 成 为 专家 ， 你 必须 花 更 多 的 时 间 来 

















破解 机 器 。 实 际 上 ， 要 找 一 切 借口 来 写 一些 代 码 ， 看 看 它 是 
如 何 工作 的 。 花 时 间 ， 成 为 智者 ， 你 可 以 做 到 的 。 


作业 《编码 ) 


在 这 个 作业 中 ， 你 要 熟悉 一 下 刚 读 过 的 进程 管理 API。 别 担心 ， 它 比 听 
起 来 更 有 趣 ! 如 果 你 找到 尽 可 能 多 的 时 间 来 编写 代码 ， 通 常会 增加 成 
功 的 概率 :中 ， 为 什么 不 现在 就 开始 呢 ? 


问题 


1. 编写 一 个 调用 fork () 的 程序 。 在 调用 fork (之 前 ， 让 主 进程 访问 一 
个 变量 (例如 x) 并 将 其 值 设置 为 某 个 值 〈 例 如 100) 。 子 进程 中 的 变 
量 有 什么 值 ? 当 子 进程 和 父 进程 都 改变 x 的 值 时 ， 变 量 会 发 生 什 么 ? 


2. 编写 一 个 打开 文件 的 程序 〈 使 用 open 系统 调用 ) ， 然 后 调用 
fork (创建 一 个 新 进程 。 子 进程 和 父 进程 都 可 以 访问 open O 返回 的 文 
件 描述 符 吗 ? 当 它 们 并 发 〈 即 同时 ) 写 入 文件 时 ， 会 发 生 什么 ? 


3. 使 用 fork 0 编写 男 一 个 程序 。 子 进程 应 打印 “hello”， 父 进程 应 
打印 “goodbye”。 你 应 该 尝试 确保 子 进程 始终 先 打印 。 你 能 否 不 在 父 
进程 调用 wait 0 而 做 到 这 一 点 呢 ? 


4. 编写 一 个 调用 fork () 的 程序 ， 然 后 调用 某 种 形式 的 exec () 来 运行 程 
序 /bin/ls。 看 看 是 否 可 以 党 试 execW 的 所 有 变 体 ， 包 括 execl W 、 
execle() 、execlp() 、execv() 、execvp (0) 和 execvP()。 为 什么 同样 的 
基本 调用 会 有 这 么 多 变种 ? 


5. 现在 编写 一 个 程序 ， 在 父 进程 中 使 用 wait 0 ， 等 待 子 进程 完成 
wait WO 返回 什么 ?如果 你 在 子 进 程 中 使 用 wait 0 会 发 生 什么 ? 





6. 对 前 一 个 程序 稍 作 修改 ， 这 次 使 用 waitpid() 而 不 是 wait() 。 什 么 
时 候 waitpid0 〇 会 有 用 ? 


7. 编写 一 个 创建 子 进程 的 程序 ， 然 后 在 子 进 程 中 关闭 标准 输出 
(CSTDOUT_ FILENO) 。 如 果子 进程 在 关闭 描述 符 后 调用 printf (0 打印 输 
由， 次 信 生 作用 ? 


8. 编写 一 个 程序 ， 创 建 两 个 子 进程 ， 并 使 用 pipe () 系统 调用 ， 将 一 个 
子 进 程 的 标准 输出 连接 到 另 一 个 子 进程 的 标准 输入 。 





[1]， 好 吧 ， 我 们 承认 我 们 并 不 确定 。 谁 知道 你 在 没 人 的 时 候 调用 过 什 
么 ? 但 fork () 相当 奇怪 ， 不 管 你 的 函数 调用 模式 有 多 不 同 。 


[2] 有 些 情况 下 ，wait (在 子 进 程 退 出 之 前 返回 。 像 往常 一 样 ， 请 阅 
读 man 手 册 获 取 更 多 细节 。 小 心 本 书 中 绝对 的 、 无 条 件 的 陈述 ， 比 如 
“ 子 进程 总 是 先 输出 结果 ”或 “UNIX 是 世界 上 最 好 的 东西 ， 甚 至 比 冰 
湛 淋 还 要 好 ”。 

[3] 实际 上 ，exec0 〇 有 几 种 变 体 : execl()、execle()、execlp0、 
execv () 和 execvp ()。 请 阅读 man 手 册 以 了 解 更 多 信息 。 


[4] 有 许多 shell， 如 tcsh、bash 和 和 zsh 等 。 你 应 该 选择 一 个 ， 阅 读 
它 的 man 手 册 ， 了 解 更 多 信息 。 所 有 UNIX 专 家 都 这 样 做 。 


[5] 如 果 你 不 喜欢 编码 ， 但 想 成 为 计算 机 科学 家 ， 这 意味 着 你 需要 变 
得 非常 擅长 计算 机 科学 理论 ， 或 者 也 许 要 重新 考虑 你 一 直 在 说 的 “ 计 
算 机 科学 ”这 回 事 。 











第 6 章 ”机 制 : 受 限 直接 执行 


为 了 虚拟 化 CPU， 操 作 系 统 需要 以 某 种 方式 让 许多 任务 共享 物理 CPU， 

让 它们 看 起 来 像 是 同时 运行 。 基 本 思想 很 简单 : 运行 一 个 进程 一 段 时 
间 ， 然 后 运行 男 一 个 进程 ， 如 此 轮换 。 通 过 以 这 种 方式 时 分 共享 
(time sharing) CPU， 就 实现 了 虚拟 化 。 


然而 ， 在 构建 这 样 的 虚拟 化 机 制 时 存在 一 些 挑 战 。 第 一 个 是 性 能 : 如 
何在 不 增加 系统 开销 的 情况 下 实现 虚拟 化 ? 第 二 个 是 控制 权 : 如 何 有 
效 地 运行 进程 ， 同 时 保留 对 CPU 的 控制 ? 控制 权 对 于 操作 系统 尤为 重 
要 ， 因 为 操作 系统 负责 资源 管理 。 如 果 没 有 控制 权 ， 一 个 进程 可 以 简 
单 地 无 限制 运行 并 接管 机 器 ， 或 访问 没有 权限 的 信息 。 因 此 ， 在 保持 
控制 权 的 同时 获得 高 性 能 ， 这 是 构建 操作 系统 的 主要 挑战 之 一 。 











关键 问题 ， 如 何 高 效 、 可 控 地 虚拟 化 CPU 
操作 系统 必须 以 高 性 能 的 方式 虚拟 化 CPU， 同 时 保持 对 系统 的 


控制 。 为 此 ， 需 要 硬件 和 操作 系统 文 持 。 操 作 系统 通常 会 明 
知 地 利用 硬件 文 持 ， 以 便 高 效 地 实现 其 工作 。 


6. 1 基本 技巧 : 受 限 直接 执行 





为 了 使 程序 尽 可 能 快 地 运行 ， 操 作 系 统 开 发 人 员 想 出 了 一 种 技术 一 一 
我 们 称 之 为 受 限 的 直接 执行 (limited direct execution) 。 这 个 概 
念 的 “直接 执行 ”部 分 很 简单 : 只 需 直 接 在 CPU 上 运行 程序 即 可 。 因 
此 ， 当 0S 希 望 启 动 程序 运行 时 ， 它 会 在 进程 列表 中 为 其 创建 一 个 进程 
条 目 ， 为 其 分 配 一 些 内 存 ， 将 程序 代码 (从 磁盘 〉 加 载 到 内 存 中 ， 找 
到 入 口 点 Cmain() 函数 或 类 似 的 ) ， 跳 转 到 那里 ， 并 开始 运行 用 户 的 








代码 。 表 6. 1 展示 了 这 种 基本 的 直接 执行 协议 《没有 任何 限制 ) ， 使 用 
正常 的 调用 并 返回 跳 转 到 程序 的 main () ， 并 在 稍 后 回 到 内 核 。 


表 6. 1 直接 运行 协议 (无 限制 》 


在 进程 列表 上 创建 条 目 

为 程序 分 配 内 存 

将 程序 加 载 到 内 存 中 

根据 argc/argv 设置 程序 栈 





外 





清除 寄存 器 
执行 call main() 方法 


执行 nain() 

从 main 中 执行 Treturn 
释放 进程 的 内 存 将 进程 
从 进程 列表 中 清除 


听 起 来 很 简单 ， 不 是 吗 ? 但 是 ， 这 种 方法 在 我 们 的 虚拟 化 CPU 时 产生 了 
一 些 问题 。 第 一 个 问题 很 简单 :， 如果 我 们 只 运行 一 个 程序 ， 操 作 系 统 
怎么 能 确保 程序 不 做 任何 我 们 不 希望 它 做 的 事 ， 同 时 仍然 高 效 地 运行 
它 ? 第 二 个 问题 : 当 我 们 运行 一 个 进程 时 ， 操 作 系 统 如 何 让 它 停 下 来 
并 切换 到 另 一 个 进程 ， 从 而 实现 虚拟 化 CPU 所 需 的 时 分 共享 ? 


下 面 在 回答 这 些 问题 时 ， 我 们 将 更 好 地 了 解 虚拟 化 CPU 需要 什么 。 在 开 
发 这 些 技术 时 ， 我 们 还 会 看 到 标题 中 的 “ 受 限 ”部 分 来 自 哪 里 。 如 宁 
对 运行 程序 没有 限制 ， 操 作 系统 将 无 法 控制 任何 事情 ， 因 此 会 成 为 
ea 
悲伤 的 事 ! 






































6.2 问题 1， 受 限制 的 操作 


直接 执行 的 明显 优势 是 快速 。 该 程序 直接 在 硬件 CPU 上 运行 ， 因 此 执行 
速度 与 预期 的 一 样 快 。 但 是 ， 在 CPU 上 运行 会 带 来 一 个 问题 一 一 如 果 进 
程 希 望 执 行 某 种 受 限 操作 (如 向 磁盘 发 出 1/0 请 求 或 获得 更 多 系统 资源 
(如 CPU 或 内 存 ) ) ， 该 怎么 办 ? 


关键 问题 : 如 何 执行 受 限制 的 操作 


一 个 进程 必须 能 够 执行 1/0 和 其 他 一 些 受 限制 的 操作 ， 但 又 不 
Ws 
? 


提示 : 采用 受 保护 的 控制 权 转 移 


硬件 通过 提供 不 同 的 执行 模式 来 协助 操作 系统 。 在 用 户 模式 
(user mode) 下 ， 应 用 程序 不 能 完全 访问 硬件 资源 。 在 内 核 
模式 (kernel mode) 下 ， 操 作 系 统 可 以 访问 机 器 的 全 部 资 
源 。 还 提供 了 陷入 (trap) 内核 和 从 陷阱 返回 (return- 
from-trap) 到 用 户 模式 程序 的 特别 说 明 ， 以 及 一 些 指令 ， 让 
操作 系统 告诉 人 硬件 陷阱 表 (trap table) 在 内 存 中 的 位 置 。 


对 于 IZ/0 和 其 他 相关 操作 ， 一 种 方法 就 是 让 所 有 进程 做 所 有 它 想 做 的 事 
情 。 但 是 ， 这 样 做 导致 无 法 构建 许多 我 们 想 要 的 系统 。 例 如 ， 如 果 我 
们 和 希望 构建 一 个 在 授予 文件 访问 权限 前 检查 权限 的 文件 系统 ， 就 不 能 
简单 地 让 任何 用 户 进程 向 磁盘 发 出 I[/0。 如 果 这 样 做 ， 一 个 进程 就 可 以 
读 取 或 写 入 整个 磁盘 ， 这 样 所 有 的 保护 都 会 失效 。 


因此 ， 我 们 采用 的 方法 是 引入 一 种 新 的 处 理 器 模式 ， 称 为 用 户 模 式 
(user mode) 。 在 用 户 模 式 下 运行 的 代码 会 受到 限制 。 例 如 ， 在 用 户 


模式 下 运行 时 ， 进 程 不 能 发 出 I/0 请 求 。 这 样 做 会 导致 处 理 器 引发 异 
常 ， 操 作 系 统 可 能 会 终止 进程 。 


与 用 户 模 式 不 同 的 内 核 模式 (kernel mode) ， 操 作 系 统 ( 或 内核) 就 
以 这 种 模式 运行 。 在 此 模式 下 ， 运 行 的 代码 可 以 做 它 喜 欢 的 事 ， 包 括 
特权 操作 ， 如 发 出 1/0 请 求 和 执行 所 有 类 型 的 受 限 指令 。 


但 是 ， 我 们 仍然 面临 着 一 个 挑战 一 一 如 果 用 户 和 希望 执行 某 种 特权 操作 
(如 从 磁盘 读 取 ) ， 应 该 怎么 做 ? 为 了 实现 这 一 点 ， 几 乎 所 有 的 现代 
硬件 都 提供 了 用 户 程序 执行 系统 调用 的 能 力 。 系 统 调 用 是 在 Atlas 
[K+61，L78] 等 古老 机 器 上 开创 的 ， 它 允许 内 核 小 心地 向 用 户 程序 暴露 
某 些 关键 功能 ， 例 如 访问 文件 系统 、 创 建 和 销毁 进程 、 与 其 他 进程 通 
信 ， 以 及 分 配 更 多 内 存 。 大 多 数 操作 系统 提供 几 百 个 调用 ( 详 见 POSIX 
标准 [P10] ) 。 早 期 的 UNIX 系 统 公 开 了 更 简洁 的 子 集 ， 大 约 20 个 调用 。 


要 执行 系统 调用 ， 程 序 必 须 执行 特殊 的 陷阱 (trap) 指令 。 该 指令 同 
时 跳 入 内 核 并 将 特权 级 别提 升 到 内 核 模 式 。 一 旦 进入 内 核 ， 系 统 就 可 
以 执行 任何 需要 的 特权 操作 《如果 人 允许) ， 从 而 为 调用 进程 执行 所 需 
的 工作 。 完 成 后 ， 操 作 系 统 调用 一 个 特殊 的 从 陷阱 返回 (return- 
from-trap) 指令 ， 如 你 期 望 的 那样 ， 该 指令 返回 到 发 起 调用 的 用 户 程 
序 中 ， 同 时 将 特权 级 别 降低 ， 回 到 用 户 模式 。 


执行 陷阱 时 ， 硬 件 需要 小 心 ， 因 为 它 必 须 确保 存储 足够 的 调用 者 寄存 
器 ， 以 便 在 操作 系统 发 出 从 陷阱 返回 指令 时 能 够 正确 返回 。 例 如 ， 在 
x86 上， 处 理 器 会 将 程序 计数 器 、 标 志和 其 他 一 些 寄存 器 推送 到 每 个 进 
程 的 内 核 栈 (kernel stack) 上 。 从 返回 陷阱 将 从 栈 弹 出 这 些 值 ， 并 
恢复 执行 用 户 模式 程序 《有关 详细 信息 ， 请 参阅 英特尔 系统 手册 
和 
目 似 的 。 




















补充 : 为 什么 系统 调用 看 起 来 像 过 程 调用 


你 可 能 想 知 道 ， 为 什么 对 系统 调用 的 调用 (如 open0 或 
read() ) 看 起 来 完全 就 像 C 中 的 典型 过 程 调用 。 也 就 是 说 ， 如 
果 它 看 起 来 像 一 个 过 程 调用 ， 系 统 如 何 知道 这 是 一 个 系统 调 
用 ， 并 做 所 有 正确 的 事情 ? 原因 很 简单 : 它 是 一 个 过 程 调 
用 ， 但 隐藏 在 过 程 调用 内 部 的 是 著名 的 陷阱 指令 。 更 具体 地 





说 ， 当 你 调用 open () 〈 举 个 例子 ) 时 ， 你 正在 执行 对 C 库 的 过 
程 调用 。 其 中 ， 无 论 是 对 于 open (0 还 是 提供 的 其 他 系统 调 
用 ， 库 都 使 用 与 内 核 一 致 的 调用 约定 来 将 参数 放 在 众所周知 
的 位 置 “例如 ， 在 栈 中 或 特定 的 寄存 器 中 ) ， 将 系统 调用 号 
也 放 入 一 个 众所周知 的 位 置 (同样 ， 放 在 栈 或 寄存 器 中 ) ， 
然后 执行 上 述 的 陷阱 指令 。 库 中 陷阱 之 后 的 代码 准备 好 返回 
值 ， 并 将 控制 权 返 回 给 发 出 系统 调用 的 程序 。 因 此 ，C 库 中 进 
行 系统 调用 的 部 分 是 用 汇编 手工 编码 的 ， 因 为 它们 需要 仔细 
遵循 约定 ， 以 便 正确 处 理 参 数 和 返回 值 ， 以 及 执行 硬件 特定 
的 陷阱 指令 。 现 在 你 知道 为 什么 你 自己 不 必 写 汇编 代码 来 陷 
入 操作 系统 了 ， 因 为 有 人 已 经 为 你 写 了 这 些 汇 编 。 








还 有 一 个 重要 的 细节 没 讨论 : 陷阱 如 何 知道 在 0S 内 运行 哪些 代码 ? 显 
然 ， 发 起 调用 的 过 程 不 能 指定 要 跳 转 到 的 地 址 〈 就 像 你 在 进行 过 程 调 
用 时 一 样 ) ， 这 样 做 让 程序 可 以 跳 转 到 内 核 中 的 任意 位 置 ， 这 显然 是 
一 个 糟糕 的 主意 (想象 一 下 跳 到 访问 文件 的 代码 ， 但 在 权限 检查 之 
后 。 实 际 上 ， 这 种 能 力 很 可 能 让 一 个 狐 独 的 程序 员 令 内 核 运 行 任 意 代 
码 序列 [S07] )。 因 此 内 核 必须 谨慎 地 控制 在 陷阱 上 执行 的 代码 。 


内 核 通过 在 启动 时 设置 陷阱 表 (trap table) 来 实现 。 当 机 器 启动 
时 ， 它 在 特权 (内核) 模式 下 执行 ， 因 此 可 以 根据 需要 自由 配置 机 器 
硬件。 操作 系统 做 的 第 一 件 事 ， 就 是 告诉 硬件 在 发 生 某 些 异常 事件 时 
要 运行 哪些 代码 。 例 如 ， 当 发 生硬 盘 中 断 ， 发 生 键 盘 中 断 或 程序 进行 
系统 调用 时 ， 应 该 运行 哪些 代码 ? 操作 系统 通常 通过 某 种 特殊 的 指 
令 ， 通 知 硬件 这 些 陷 阱 处 理 程序 的 位 置 。 一 旦 人 硬件 被 通知 ， 它 就 会 记 
住 这 些 处 理 程序 的 位 置 ， 直 到 下 一 次 重新 启动 机 器 ， 并 且 硬 件 知 道 在 
发 生 系统 调用 和 其 他 异常 事件 时 要 做 什么 ( 即 跳 转 到 哪 段 代码 〉。 


最 后 再 插 一 句 : 能 够 执行 指令 来 告诉 硬件 陷阱 表 的 位 置 是 一 个 非常 强 
大 的 功能 。 因 此 ， 你 可 能 已 经 猜 到 ， 这 也 是 一 项 特权 (privileged) 
操作 。 如 果 你 试图 在 用 户 模 式 下 执行 这 个 指令 ， 硬 件 不 会 允许 ， 你 可 
能 会 猜 到 会 发 生 什 么 〈 提 示 : 再 见 ， 违 规程 序 ) 。 思 考 问 题 : 如 果 可 
以 设置 自己 的 陷阱 表 ， 你 可 以 对 系统 做 些 什么 ? 你 能 接管 机 器 吗 ? 


时 间 线 ( 随 着 时 间 的 推移 向 下 ， 在 表 6. 2 中 ) 总 结 了 该 协议 。 我 们 假设 
每 个 进程 都 有 一 个 内 核 栈 ， 在 进入 内 核 和 离开 内 核 时 ， 寄 存 占 (包括 


























通用 寄存 器 和 程序 计数 器 ) 分 别 被 保存 和 恢复 。 


表 6.2  ” 受 限 直接 运行 协议 


由 


在 进程 列表 上 创建 条 目 

为 程序 分 配 内 存 

将 程序 加 载 到 内 存 中 

根据 argv 设置 程序 栈 

用 寄存 器 /程序 计数 器 填充 内 核 栈 
从 陷阱 返回 

















从 内 核 栈 恢 复 寄 存 器 
转向 用 户 模式 
跳 到 main 


将 寄存 器 保存 到 内 核 栈 
转向 内 核 模式 
跳 到 陷阱 处 理 程序 


做 系统 调用 的 工作 
从 陷阱 返回 





从 内 核 栈 恢 复 寄 存 器 
转向 用 户 模式 














程序 (应 用 模式 ) 


关 
i 


调用 系统 调用 
陷入 操作 系统 


























跳 到 陷阱 之 后 的 程序 计数 器 


So 从 main 返 回 
陷入 (通过 exit 0 ) 























LDE 协 议 有 两 个 阶段 。 第 一 个 阶段 (在 系统 引导 时 ) ， 内 核 初始 化 陷阱 
表 ， 并 且 CPU 记 住 它 的 位 置 以 供 随后 使 用 。 内 核 通 过 特权 指令 来 执行 此 
操作 (所 有 特权 指令 均 以 粗 体 突出 显示 )。 第 一 个 阶段 (运行 进程 
时 ) ， 在 使 用 从 陷阱 返回 指令 开始 执行 进程 之 前 ， 内 核 设 置 了 一 些 内 
容 〈 例 如 ， 在 进程 列表 中 分 配 一 个 节点 ， 分 配 内 存 ) 。 这 会 将 CPU 切换 
到 用 户 模式 并 开始 运行 该 进程 。 当 进程 希望 发 出 系统 调用 时 ， 它 会 重 
新 陷入 操作 系统 ， 然 后 再 次 通过 从 隐 阱 返回 ， 将 控制 权 还 给 进程 。 该 
进程 然后 完成 它 的 工作 ， 并 从 main(O 返回 。 这 通常 会 返回 到 一 些 存 根 
代码 ， 它 将 正确 退出 该 程序 (例如 ， 通 过 调用 exit (系统 调用 ， 这 将 
陷入 0S 中 ) 。 此 时 ，0S 清 理 干净 ， 任 务 完成 了 。 





6.3 问题 2: 在 进程 之 间 切 换 


直接 执行 的 下 一 个 问题 是 实现 进程 之 间 的 切换 。 在 进程 之 间 切 换 应 该 
很 简单 ， 对 吧 ? 操作 系统 应 该 决定 停止 一 个 进程 并 开始 另 一 个 进程 。 
有 什么 大 不 了 的 ? 但 实际 上 这 有 点 琼 手 ， 特 别 是 ， 如 打 一 个 进程 在 CPU 
上 运行 ， 这 就 意味 着 操作 系统 没有 运行 。 如 果 操 作 系 统 没 有 运行 ， 它 
怎么 能 做 事情 ? (提示 : 它 不 能 ) 虽然 这 听 起 来 几乎 是 哲学 ， 但 这 是 
真正 的 问题 一 一 如 果 操 作 系统 没有 在 CPU 上 运行 ， 那 么 操作 系统 显然 没 
有 办 法 采取 行动 。 因 此 ， 我 们 遇 到 了 关键 问题 。 








关键 问题 ， 如 何 重 获 CPU 的 控制 权 


操作 系统 如 何 重 新 获得 CPU 的 控制 权 (regain control) ， 以 
便 它 可 以 在 进程 之 间 切 换 ? 


协作 方式 : 等 竺 系统 调用 


过 去 某 些 系统 采用 的 一 种 方式 〈 例 如 ， 早 期 版 本 的 Macintosh 操 作 系 统 
[M11j 或 旧 的 Xerox Alto 系 统 [A79] ) 称 为 协作 (cooperative) 方式 。 
在 这 种 风格 下 ， 操 作 系 统 相 信和 系统 的 进程 会 合理 运行 。 运 行 时 间 过 长 
的 进程 被 假定 会 定期 放弃 CPU， 以 便 操 作 系 统 可 以 决定 运行 其 他 任务 。 


因此 ， 你 可 能 会 问 ， 在 这 个 虚拟 的 世界 中 ， 一 个 友好 的 进程 如 何 放弃 
CPU? 事实 证 明 ， 大 多 数 进程 通过 进行 系统 调用 ， 将 CPU 的 控制 权 转 移 
给 操作 系统 ， 例 如 打开 文件 并 随后 读 取 文 件 ， 或 者 癌 另 一 台 机 器 发 送 
消息 或 创建 新 进程 。 像 这 样 的 系统 通 第 包括 一 个 显 式 的 yield 系 统 调 
| 
和 王 。 








提示 : 处 理应 用 程序 的 不 当 行 为 


操作 系统 通常 必须 处 理 不 当 行 为 ， 这 些 程序 通过 设计 《和 亚 
意 ) 或 不 小 心 〈 错 误 ) ， 渔 试 做 茶 些 不 应 该 做 的 事情 。 在 现 
代 系 统 中 ， 操 作 系 统 试图 处 理 这 种 不 当 行 为 的 方式 是 简单 地 
终止 犯罪 者 。 一 击 出 局 ! 也 许 有 点 残酷 ， 但 如 果 你 尝试 非法 
访问 内 存 或 执行 非法 指令 ， 操 作 系统 还 应 该 做 些 什 么 ? 


如 果 应 用 程序 执行 了 茶 些 非法 操作 ， 也 会 将 控制 转移 给 操作 系统 。 例 
如 ， 如 果 应 用 程序 以 0 为 除数 ， 或 者 尝试 访问 应 该 无 法 访问 的 内 存 ， 就 
ee 
进程 ) 。 


因此 ， 在 协作 调度 系统 中 ，0S 通 过 等 待 系统 调用 ， 或 某 种 非法 操作 发 
生 ， 从 而 重新 获得 CPU 的 控制 权 。 你 也 许 会 想 : 这 种 被 动 方式 不 是 不 太 
理想 吗 ? 例如 ， 如 果 某 个 进程 〈 无 论 是 恶意 的 还 是 充满 缺陷 的 ) 进入 
0 
能 A 





非 协作 方式 : 操作 系统 进行 控制 


事实 证 明 ， 没 有 硬件 的 额外 帮助 ， 如 果 进 程 拒 绝 进行 系统 调用 (也 不 
出 错 ) ， 从 而 将 控制 权 交 还 给 操作 系统 ， 那 么 操作 系统 无 法 做 任何 事 
情 。 事 实 上 ， 在 协作 方式 中 ， 当 进程 陷入 无 限 循环 时 ， 唯 一 的 办 法 就 
是 使 用 古老 的 解决 方 采 来 解决 计算 机 系统 中 的 所 有 问题 一 一 重新 启动 
计算 机 。 因 此 ， 我 们 又 遇 到 了 请 求 获得 CPU 控制 权 的 一 个 子 问题 。 








关键 问题 : 如 何在 没有 协作 的 情况 下 获得 控制 权 


即使 进程 不 协作 ， 操 作 系统 如 何 获得 CPU 的 控制 权 ? 操作 系统 
可 以 做 什么 来 确保 流氓 进程 不 会 占用 机 器 ? 





答案 很 简单 ， 许 多 年 前 构建 计算 机 系统 的 许多 人 都 发 现 了 : 时 钟 中 断 
(timer interrupt) [M+63] 。 时 钟 设 备 可 以 编程 为 每 隔 几 旦 秒 产生 

次 中 断 。 产 生 中 断 时 ， 当 前 正在 运行 的 进程 停止 ， 操 作 系 统 中 预先 配 

置 的 中 断 处 理 程序 (interrupt handler) 会 运行 。 此 时 ， 操 作 系 统 重 

0 因此 可 以 做 它 想 做 的 事 : 停止 当前 进程 ， 并 启动 
二 个 进程 。 








提示 : 利用 时 钟 中 断 重 新 获得 控制 权 


即使 进程 以 非 协 作 的 方式 运行 ， 添 加 时 钟 中 断 〈timer 
interrupt ) 也 让 操作 系统 能 够 在 CPU 上 重新 运行 。 因 此 ， 该 
硬件 功能 对 于 帮助 操作 系统 维持 机 器 的 控制 权 至 关 重 要 。 





首先 ， 正 如 我 们 之 前 讨论 过 的 系统 调用 一 样 ， 操 作 系 统 必 须 通知 硬件 
哪些 代码 在 发 生 时 钟 中 断 时 运行 。 因 此 ， 在 启动 时 ， 操 作 系统 就 是 这 
样 做 的 。 其 次 ， 在 局 动 过 程 中 ， 操 作 系 统 也 必须 启动 时 钟 ， 这 当然 是 





一 项 特权 操作 。 操作 系统 就 感到 安全 了 ， 因 为 控 
制 权 最 终 会 归还 给 它 ， 因 此 操作 系统 可 以 自由 运行 用 户 程序 。 时 钟 也 
可 以 关闭 (也 是 特权 操作 》， 稍 后 更 详细 地 理解 并 发 时 ， 我 们 会 讨 


论 


请 注意 ， 硬 件 在 发 生 中 断 时 有 一 定 的 责任 ， 尤 其 是 在 中 断 发 生 时 ， 要 
为 正在 运行 的 程序 保存 足够 的 状态 ， 以 便 随 后 从 陷阱 返回 指令 能 够 正 
确 恢复 正在 运行 的 程序 。 这 一 组 操作 与 重 件 在 显 式 系统 调用 陷入 内核 
时 内 行为 非常 相似 ， 其 中 各 种 寄存 器 因此 被 保存 (进入 内 核 栈 ) ， 因 
此 从 陷阱 返回 指令 可 以 容易 地 恢复 。 


保存 和 恢复 上 下 文 























既然 操作 系统 已 经 重新 获得 了 控制 权 ， 还 
| 都 必须 决定 : 分 运行 当前 止 在 运行 
的 进程 ， 还 是 切换 到 男 一 个 进程 。 个 决定 是 由 调度 程序 
Cscheduler) 做 出 的 ， 它 是 操作 系统 的 一 部 分 。 我 们 将 在 接 下 来 的 几 
章 中 详细 讨论 调度 策略 。 


如 果 决 定 进行 切 换 ，0S 就 会 执行 一 些 底 层 代 码 ， 即 所 谓 的 上 下 文 切 换 
(context Switch) 。 上 上下文 切 换 在 概念 上 很 简单 : 操作 系统 要 做 的 
就 是 为 当前 正在 执行 的 进程 保存 一 些 寄存 器 的 值 〈 例 如 ， 到 它 的 内 核 
栈 ) ， 并 为 即将 执行 的 进程 恢复 一 些 寄存 器 的 值 〈 从 它 的 内 核 栈 ) 。 
这 样 一 来 ， 操 作 系 统 就 可 以 确保 最 后 执行 从 陷阱 返回 指令 时 ， 不 是 返 
回 到 之 前 运行 的 进程 ， 而 是 继续 执行 男 一 个 进程 。 


为 了 保存 当前 正在 运行 的 进程 的 上 下 文 ， 操 作 系 统 会 执行 一 些 底层 汇 
编 代 码 ， 来 保存 通用 寄存 器 、 程 序 计 数 器 ， 以 及 当前 正在 运行 的 进程 
的 内 核 栈 指针 ， 然 后 恢复 寄存 器 、 程 序 计数 器 ， 并 切换 内 核 栈 ， 供 即 
将 运行 的 进程 使 用 。 通 过 切换 栈 ， 内 核 在 进入 切换 代码 调用 时 ， 是 一 
个 进程 《被 中 断 的 进程 ) 的 上 下 文 ， 在 返回 时 ， 是 另 一 进程 《即将 执 
行 的 进程 ) 的 上 下 文 。 当 操作 系统 最 终 执 行 从 陷阱 返回 指令 时 ， 即 将 
执行 的 进程 变 成 了 当前 运行 的 进程 。 至 此 上 下 文 切换 完成 。 











表 6. 3 展示 了 整个 过 程 的 时 间 线 。 在 这 个 例子 中 ， 进 程 A 正 在 运行 ， 然 
后 被 中 断 时 钟 中 断 。 硬 件 保 存 它 的 寄存 器 〈 在 内 核 栈 中 ) ， 并 进入 内 
核 〈 切 换 到 内 核 模 式 ) 。 在 时 钟 中 断 处 理 程 序 中 ， 操 作 系 统 决定 从 正 
在 运行 的 进程 A 切 换 到 进程 B。 此 时 ， 它 调用 switch (0 例 程 ， 该 例 程 仔 
细 保 存 当 前 寄存 器 的 值 (保存 到 A 的 进程 结构 ) ， 人 恢复 寄存 器 进程 
B〔 从 它 的 进程 结构 ) ， 然 后 切换 上 下 文 (switch context) ， 有 具体 来 
说 是 通过 改变 栈 指针 来 使 用 B 的 内 核 栈 (而 不 是 A 的 ) 。 最 后 ， 操 作 系 
统 从 陷阱 返回 ， 恢 复 B 的 寄存 器 并 开始 运行 它 。 





表 6. 3 受 限 直接 执行 协议 (时 钟 中 断 》 





操作 系统 @ 启 动 〈 内 核 模 式 ) 硬件 
初始 化 陷阱 表 


记 住 以 下 地 址 : 
系统 调用 处 理 程序 
时 钟 处 理 程序 




















启动 中 断 时 钟 
启动 时 钟 
每 隔 x ms 中 上 断 CPU 


操作 系统 @ 运 行 〈 内 核 模 式 ) 硬 人 (应 用 模 
式 ) 
进程 A Oe OS 


时 钟 中 断 
将 寄存 器 (A) 保存 到 内 核 栈 
(A) 


转向 内 核 模式 
跳 到 陷阱 处 理 程序 


调用 switch () 例 程 



























































将 寄存 器 〈A) 保存 到 进程 结构 
(A) 
将 进程 结构 (B) 恢复 到 寄存 器 





从 陷阱 返回 (进入 B) 














从 内 核 栈 (B) 恢复 寄存 器 
(B) 

转向 用 户 模 式 

跳 到 B 的 程序 计数 需 




















请 注意 ， 在 此 协议 中 ， 有 两 种 类 型 的 寄存 嚣 保存/ 恢复。 第 一 种 是 发 生 





时 钟 中 断 的 时 候 。 在 这 种 情况 下 ， 运 行进 程 的 用 户 寄存 器 由 硬件 隐 式 
保存 ， 使 用 该 进程 的 内 核 栈 。 第 二 种 是 当 操 作 系 统 决 定 从 A 切换 到 B。 
在 这 种 情况 下 ， 内 核 寄 存 器 被 软件 ( 即 0S〉 明确 地 保存 ， 但 这 次 被 存 
储 在 该 进程 的 进程 结构 的 内 存 中 。 后 一 个 操作 让 系统 从 好 像 刚刚 由 A 陷 
入 内 核 ， 变 成 好 像 刚 刚 由 B 陷 入 内 核 。 


为 了 让 你 更 好 地 了 解 如 何 实现 这 种 切换 ， 图 6. 1 给 出 了 xv6 的 上 下 文 切 
换代 码 。 看 看 你 是 否 能 理解 它 〈 你 必须 知道 一 点 x86 和 一 点 xv6) 。 
context 结 构 o1d 和 new 分 别 在 老 的 和 新 的 进程 的 进程 结构 中 。 

















下 # void Swtch (struct context **old, struct context *new) ， 
2 # 

3 # Save current register context in old 

4 # and then load register context from new. 
5 .globl swtch 

6 swtch: 

7 # Save old registers 

8 movl 4(%Sesp), %Seax # put old ptr into eax 
9 popl 0 (Seax) # save the old IP 

10 movl Sesp, 4(%eax) # andq stack 

11 movl Sebx, 8(%eax) # and other registers 
12 movl %Secx, 12 (seax) 

3 movl %Sedx, 16(%Seax) 

14 movl %Sesi, 20 (Seax) 

15 movl %Sedi, 24 ($eax) 

16 movl %Sebp, 28 (Seax) 

1 

8 # Load new registers 

19 movl 4(%esp), %Seax # put new ptr into eax 
20 movl 28 (Seax), Sebp # restore other registers 
21 movl 24(%Seax), Sedi 

22 movl 20 (Seax), %Sesi 

23 movl 16(%Seax), Sedx 

24 movl 12(%eax), %Secx 





25 movl 8(%Seax), %Sebx 


26 movl 4(%Seax), Sesp # stack is switched here 
27 pushl 0 (Seax) # return addr put in place 
28 ret # finally return into new ctxt 


图 6. 1 xv6 的 上 下 文 切换 代码 


6.4 担心 并 发 吗 


作为 细心 周到 的 读者 ， 你 们 中 的 一 些 人 现在 可 能 会 想 ， “上 电 …… 在 系 
统 调用 期 间 发 生 时 钟 中 断 时 会 发 生 什么 ? ”或 “处 理 一 个 中 断 时 发 生 
另 一 个 中 断 ， 会 发 生 什么 ? 这 不 会 让 内 核 难以 处 理 吗 ? ”好 问题 一 一 
我 们 真 的 对 你 抱 有 一 点 希望 ! 


答 肥 是 肯定 的 ， 如 果 在 中 断 或 陷阱 处 理 过 程 中 发 生男 一 个 中 断 ， 那 么 
操作 系统 确实 需要 关心 发 生 了 什么 。 实 际 上 ， 这 正 是 本 书 第 2 部 分 关于 
并 发 的 主题 。 那 时 我 们 将 详细 讨论 。 











补充 : 上 下 文 切换 要 多 长 时 间 


你 可 能 有 一 个 很 自然 的 问题 ， 上 下 文 切换 需要 多 长 时 间 ? 其 
至 系统 调用 要 多 长 时 间 ? 如 果 感 到 好 奇 ， 有 一 种 称 为 lmbench 
[MS96] 的 工具 ， 可 以 准确 衡量 这 些 事情 ， 并 提供 其 他 一 些 可 
能 相关 的 性 能 指标 。 


随 着 时 间 的 推移 ， 结 果 有 了 很 大 的 提高 ， 大 致 跟 上 了 处 理 句 
的 性 能 提高 。 例 如 ，1996 年 在 200-MHz P6 CPU 上 运行 Linux 
1.3.37， 系 统 调 用 花费 了 大 约 4ns， 上 下 文 切 换 时 间 大 约 为 
6 nsLMS96] 。 现 代 系 统 的 性 能 几乎 可 以 提高 一 个 数量 级 ， 在 
具有 2 GHz 或 3 GHz 处 理 器 的 系统 上 的 性 能 可 以 达到 亚 微 秒 
级 。 


应 该 注意 的 是 ， 并 非 所 有 的 操作 系统 操作 都 会 跟踪 CPU 的 性 
能 。 正 如 Ousterhout 所 说 的 ， 许 多 操作 系统 操作 都 是 内 存 密 
集 型 的 ， 而 随 着 时 间 的 推移 ， 内 存 带 宽 并 没有 像 处 理 器 速度 





那样 显著 提高 [090] 。 因 此 ， 根 据 你 的 工作 有 负载， 购买 最 新 、 
性 能 好 的 处 理 器 可 能 不 会 像 你 希望 的 那样 加 速 操作 系统 。 


为 了 让 你 开 开 上 骨 ， 我 们 只 是 简单 介绍 了 操作 系统 如 何 处 理 这 些 环 手 的 
情况 。 操 作 系 统 可 能 简单 地 决定 ， 在 中 断 处 理 期 间 禁 止 中 断 〈disable 
interrupt ) 。 这 样 做 可 以 确保 在 处 理 一 个 中 断 时 ， 不 会 将 其 他 中 断交 
给 CPU。 当 然 ， 操 作 系 统 这 样 做 必须 小 心 。 茜 用 中 断 时 间 过 长 可 能 导致 
丢失 中 断 ， 这 《在 技术 上 ) 是 不 好 的 。 


操作 系统 还 开发 了 许多 复杂 的 加 锁 (locking) 方案 ， 以 保护 对 内 部 数 
据 结构 的 并 发 访问 。 这 使 得 多 个 活动 可 以 同时 在 内 核 中 进行 ， 特 别 适 
用 于 多 处 理 器 。 我 们 在 本 书 下 一 部 分 关于 并 发 的 章节 中 将 会 看 到 ， 这 
种 锁 可 能 会 变 得 复杂 ， 并 导致 各 种 有 趣 且 难以 发 现 的 错误 。 

















6.5 小 结 


我 们 已 经 描述 了 一 些 实现 CPU 虚拟 化 的 关键 底层 机 制 ， 并 将 其 统称 为 受 
限 直 接 执行 (limited direct execution) 。 基 本 思路 很 简单 : 就 让 
你 想 运 行 的 程序 在 CPU 上 运行 ， 但 首先 确保 设置 好 硬件 ， 以 便 在 没有 操 
作 系统 帮 助 的 情况 下 限制 进程 可 以 执行 的 操作 。 


这 种 一 般 方法 也 在 现实 生活 中 采用 。 例 如 ， 那 些 有 孩子 或 至 少 听 说 过 
孩子 的 人 可 能 会 熟悉 宝宝 防护 (baby proofing) 房间 的 概念 一 一 锁 好 
包含 危险 物品 的 柜子 ， 并 掩盖 电源 插座 。 当 这 些 都 准备 妥当 时 ， 你 可 
以 让 宝宝 自由 行动 ， 确 保 房间 最 危险 的 方面 受到 限制 。 





提示 : 重新 启动 是 有 用 的 


之 前 我 们 指出 ， 在 协作 式 抢占 时 ， 无 限 循环 〈 以 及 类 似 行 
为 ) 的 唯一 解决 方案 是 重启 (reboot ) 机 器 。 虽 然 你 可 能 会 
嘲笑 这 种 粗暴 的 做 法 ， 但 研究 表明 ， 重 局 〈 或 在 通 销 意义 上 





说 ， 重 新 开始 运行 一 些 软件 ) 可 能 是 构建 强大 系统 的 一 个 非 
常 有 用 的 工具 [C+04] 。 


具体 来 说 ， 重 新 局 动 很 有 用 ， 因 为 它 让 软件 回 到 已 知 的 状 
态 ， 很 可 能 是 经 过 更 多 测试 的 状态 。 重 新 启动 还 可 以 回收 旧 
的 或 泄露 的 资源 (例如 内 存 〉， 否 则 这 些 资源 可 能 很 难处 
理 。 最 后 ， 重 局 很 容易 自动 化 。 由 于 所 有 这 些 原因 ， 在 大 规 
模 集群 互联 网 服务 中 ， 系 统管 理 软件 定期 重启 一 些 机 器 ， 重 
置 它们 并 因此 获得 以 上 好 处 ， 这 并 不 少见 。 


因此 ， 下 次 重启 时 ， 要 相信 自己 不 是 在 进行 菏 种 丑陋 的 粗 雄 
攻击 。 实 际 上 ， 你 正在 使 用 经 过 时 间 考 验 的 方法 来 改善 计算 
机 系统 的 行为 。 干 得 漂亮 ! 

















通过 类 似 的 方式 ，0S 首 先 〈 在 启动 时 ) 设置 陷阱 处 理 程序 并 局 动 时 钟 
中 断 ， 然 后 仅 在 受 限 模 式 下 运行 进程 ， 以 此 为 CPU 提 供 “ 宝 宝 防护 ”。 
这 样 做 ， 操 作 系 统 能 确信 进程 可 以 高 效 运行 ， 只 在 执行 特权 操作 ， 或 
者 当 它 们 独占 CPU 时 间 过 长 并 因此 需要 切换 时 ， 才 需要 操作 系统 干预 。 


人 至此， 我 们 有 了 虚拟 化 CPU 的 基本 机 制 。 但 一 个 主要 问题 还 没有 答案 : 
在 特定 时 间 ， 我 们 应 该 运行 哪个 进程 ? 调度 程序 必须 回答 这 个 问题 ， 
因此 这 也 是 我 们 研究 的 下 一 个 主题 。 
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有 些 文 章 会 让 你 在 研读 过 程 中 不 时 看 到 一 些 令 人 惊叹 、 令 人 兴奋 的 想 
法 ， 这 就 是 其 中 之 一 。 作 者 告诉 你 ， 如 果 你 可 以 随意 跳 入 代码 ， 就 可 
以 将 你 喜欢 的 任何 代码 序列 “给 定 一 个 大 代码 库 ) 进行 基本 拼接 。 请 
阅读 文中 的 细节 。 这 项 技术 使 得 抵御 恶意 攻击 更 难 。 





作业 【测量 ) 


补充 : 测量 作业 


测量 作业 是 小 型 练习 。 你 可 以 编写 代码 在 真实 机 器 上 运行 ， 
从 而 测量 操作 系统 或 硬件 性 能 的 某 些 方面 。 这 样 的 作业 背后 
的 想法 是 给 你 一 点 实际 操作 系统 的 实践 经 验 。 





在 这 个 作业 中 ， 你 将 测量 系统 调用 和 上 下 文 切 换 的 成 本 。 测 量 系统 调 
用 的 成 本 相对 容易 。 例 如 ， 你 可 以 重复 调用 一 个 简单 的 系统 调用 《〈 例 
如 ， 执 行 0 字 节 读 取 ) 并 记 下 所 花 的 时 间 。 将 时 间 除 以 欠 代 次 数 ， 就 可 
以 估计 系统 调用 的 成 本 。 


你 必须 考虑 的 一 件 事 是 时 钟 的 精确 性 和 准确 性 。 你 可 以 使 用 的 典型 时 
钟 是 gettimeofday() 。 详 细 信 息 请 阅读 手册 页 。 你 会 看 到 ， 
gettimeofday() 返回 自 1970 年 以 来 的 微 秒 时 间 。 然 而 ， 这 并 不 意味 着 
时 钟 精确 到 微 秒 。 测 量 gettimeofday () 的 连续 调用 ， 以 了 解 时 钟 的 精 
确 度 。 这 会 告诉 你 为 了 获得 一 个 好 的 测量 结果 ， 需 要 让 空 系统 调用 测 
试 的 迭代 运行 多 少 次 。 如 果 gettimeofday 0 对 你 来 说 不 够 精确 ， 可 以 
考虑 利用 x86 机 器 提供 的 rdtsc 指 令 。 


测量 上 下 文 切换 的 成 本 有 点 环 手 。lmbench 基 准 测 试 的 实现 方法 ， 是 在 
单个 CPU 上 运行 两 个 进程 并 在 它们 之 间 设 置 两 个 UNIX 管 道 。 管 道 只 是 
UNIX 系 统 中 的 进程 可 以 相互 通信 的 许多 方式 之 一 。 第 一 个 进程 向 第 一 
个 管道 写 入 数据 ， 然 后 等 待 第 二 个 数据 的 读 取 。 由 于 看 到 第 一 个 进程 
等 待 从 第 二 个 管道 读 取 的 内 容 ，0S 将 第 一 个 进程 置 于 阻塞 状态 ， 并 切 
换 到 另 一 个 进程 ， 该 进程 从 第 一 个 管道 读 取 数 据 ， 然 后 写 入 第 二 个 管 
理 。 当 第 二 个 进程 再 次 答 试 从 第 一 个 管道 读 取 时 ， 它 会 阻 蹇 ， 从 而 继 
续 进 行 通信 的 往返 循环 。 通 过 反复 测量 这 种 通信 的 成 本 ，lmbench 可 以 
很 好 地 估计 上 下 文 切换 的 成 本 。 你 可 以 尝试 使 用 管道 或 其 他 通信 机 制 
《例如 UNIX 套 接 字 ) ， 重 新 创建 类 似 的 东西 。 


在 具有 多 个 CPU 的 系统 中 ， 测 量 上 下 文 切换 成 本 有 一 点 困难 。 在 这 样 的 
系统 上 ， 你 需要 确保 你 的 上 下 文 切换 进程 处 于 同一 个 处 理 器 上 。 科 和 运 
的 是 ， 大 多 数 操作 系统 都 会 提供 系统 调用 ， 让 一 个 进程 绑 定 到 特定 的 
处 理 器 。 例 如 ， 在 Linux 上 ，sched setaffinity( 调 用 就 是 你 要 查找 
的 内 容 。 通 过 确保 两 个 进程 位 于 同一 个 处 理 嚣 上， 你 就 能 确保 在 测量 
操作 系统 停止 一 个 进程 并 在 同一 个 CPU 上 恢复 另 一 个 进程 的 成 本 。 

















第 7 章 ”进程 调度 : 介绍 





现在 ， 运 行进 程 的 底层 机 制 (mechanism) (如 上 下 文 切换 ) 应 该 清楚 
了 。 如 果 还 不 清楚 ， 请 往 回 翻 一 两 音 ， 再 次 阅读 这 些 工 作 原 理 的 描 
述 。 然 而 ， 我 们 还 不 知道 操作 系统 调度 程序 采用 的 上 层 策 略 
(policy) 。 接 下 来 会 介绍 一 系列 的 调度 策略 〈sheduling policy， 
ne ， 它 们 是 许多 聪明 又 努力 的 人 在 过 去 这 些 年 里 
开发 的 。 


事实 上 ， 调 度 的 起 源 早 于 计算 机 系统 。 早 期 调度 策略 取 自 于 操作 管理 
领域 ， 并 应 用 于 计算 机 。 对 于 这 个 事实 不 必 惊 讶 : 装配 线 以 及 许多 人 
类 活动 也 需要 调度 ， 而 且 许 多 关注 点 是 一 样 的 ， 包 括 像 激 光一 样 清 楚 
的 对 效率 的 渴望 。 因 此 ， 我 们 的 问题 如 下 。 





关键 问题 : 如 何 开发 调度 策略 


我 们 该 如 何 开发 一 个 考虑 调度 策略 的 基本 框架 ? 什么 是 关键 
ee 
? 


7. 1 工作 负载 假设 


探讨 可 能 的 策略 范围 之 前 ， 我 们 先 做 一 些 简 化 假设 。 这 些 假设 与 系统 
中 运行 的 进程 有 关 ， 有 时 候 统称 为 工作 负载 (workload) 。 确 定 工 作 
AM 





我 们 这 里 做 的 工作 负载 的 假设 是 不 切实 际 的 ， 但 这 没 问 题 〈 目 前 ) ， 
因为 我 们 将 来 会 放宽 这 些 假定 ， 并 最 终 开发 出 我 们 所 谓 的 …… (戏剧 
性 的 暂停 ) …… 

一 个 完全 可 操作 的 调度 准则 (a fully-operational scheduling 
discipline) (il, 


我 们 对 操作 系统 中 运行 的 进程 《有 时 也 叫 工 作 任 务 ) 做 出 如 下 的 假 


芭 : 

1. 每 一 个 工作 运行 相同 的 时 间 。 

2. 所 有 的 工作 同时 到 达 。 

3. 一 旦 开始 ， 每 个 工作 保持 运行 直到 完成 。 

4. 所 有 的 工作 只 是 用 CPU 〈 即 它们 不 执行 I0 操 作 ) 。 

5. 每 个 工作 的 运行 时 间 是 已 知 的 。 

我 们 说 这 些 假设 中 许多 是 不 现实 的 ， 但 正如 在 奥 威 尔 的 《动物 农场 》 
[045] 中 一 些 动物 比 其 他 动物 更 平等 ， 本 章 中 的 一 些 假 设 比 其 他 假设 更 
不 现实 。 特 别 是 ， 你 会 很 证 异 每 一 个 工作 的 运行 时 间 是 已 知 的 一 一 这 


尽管 这 样 很 了 不 起 〈 也 许 ) ， 但 最 近 不 太 可 
能 发 生 。 


























7.2 调度 指标 


除了 做 出 工作 负载 假设 之 外 ， 还 需要 一 个 东西 能 让 我 们 比较 不 同 的 调 
度 策 略 : 调度 指标 。 指 标 是 我 们 用 来 衡量 某 些 东西 的 东西 ， 在 进程 调 
度 中 ， 有 一 些 不 同 的 指标 是 有 意义 的 。 


现在 ， 让 我 们 简化 一 下 生活 ， 只 用 一 个 指标 : 周转 时 间 (turnaround 
time) 。 任 务 的 周转 时 间 定 义 为 任务 完成 时 间 减 去 任务 到 达 系 统 的 时 
间 。 更 正式 的 周转 时 间 定 义 7 克 名 w5 是 : 











《 户 队 1 入 乱 盛 内 j 7 到 忆 内 订 C7 1) 


因为 我 们 假设 所 有 的 任务 在 同一 时 间 到 达 ， 那 么 7yywyr 0， 因 此 7 
姑 好 | 了 柯 ” ”1 完成 Hf 人 ° 随 着 我 们 放宽 上 述 假设 ， 这 个 情况 将 改变 。 


你 应 该 注意 到 ， 周 转 时 间 是 一 个 性 能 (performance) 指标 ， 这 将 是 本 
章 的 首要 关注 点 。 另 一 个 有 趣 的 指标 是 公平 (fairness ) ， 比 如 
Jian s Fairness Index[J91] 。 性 能 和 公平 在 调度 系统 中 往往 是 矛盾 
的 。 例 如 ， 调 度 程序 可 以 优化 性 能 ， 但 代价 是 以 阻止 一 些 任 务 运 行 ， 
这 就 降低 了 公平 。 这 个 难题 也 告诉 我 们 ， 生 活 并 不 总 是 完美 的 。 





7.3 先进 先 出 (FIF0) 


我 们 可 以 实现 的 最 基本 的 算法 ， 被 称 为 先进 先 出 (First In First 
0ut 或 FIF0) 调度 ， 有 了 时候 也 称 为 先 到 先 服务 (First Come First 
Served 或 FCFS) 。 


FIF0 有 一 些 积极 的 特性 : 它 很 简单 ， 而 且 易 于 实现 。 而 且 ， 对 于 我 们 
的 假设 ， 它 的 效果 很 好 。 


我 们 一 起 看 一 个 简单 的 例子 。 想 象 一 下 ，3 个 工作 A、B 和 C 在 大 致 相同 
的 时 间 (7gyxwy 委 = 0) 到 达 系 统 。 因 为 FIF0 必 须 将 某 个 工作 放 在 前 
面 ， 所 以 我 们 假设 当 它 们 都 同时 到 达 时 ，A 比 B 早 一 点 点 ， 然 后 B 比 C 早 
到 达 一 点 点 。 假 设 每 个 工作 运行 10s。 这 些 工 作 的 平均 周转 时 间 


(average turnaround time) 是 多 少 ? 


从 图 7. 1 可 以 看 出 ，A 在 10s 时 完成 ，B 在 20s 时 完成 ，C 在 30s 时 完成 。 
此 ， 这 3 个 任务 的 平均 周转 时 间 就 是 (10 + 20 + 30) / 3 = 20。 计 算 
周转 时 间 束 这 么 简单 。 








0 720 40 6 80 10 120 
时 间 


图 7. 1 FIF0 的 简单 例子 


现在 让 我 们 放宽 假设 。 具 体 来 说 ， 让 我 们 放宽 假设 1， 因 此 不 再 认为 每 
个 任务 的 运行 时 间 相 同 。FIF0 表 现 如 何 ? 你 可 以 构建 什么 样 的 工作 负 
载 来 让 FIF0 表 现 不 好 ? 


(在 继续 往 下 读 之 前 ， 请 认真 想 一 下 …… 接 着 想 …… 想 到 了 人 么 ? ! ) 


你 现在 应 该 已 经 弄 清楚 了 ， 但 是 以 防 万 一 ， 让 我 们 举 个 例子 来 说 明 不 
同 长 度 的 任务 如 何 导致 FIF0 调 度 的 问题 。 有 具体 来 说 ， 我 们 再 次 假设 3 个 
任务 (A、B 和 C) ， 但 这 次 A 运行 100s， 而 B 和 C 运 行 10s。 


如 图 7. 2 所 示 ，A 先 运行 100s，B 或 C 才 有 机 会 运行 。 因 此 ， 系 统 的 平均 
周转 时 间 是 比较 高 的 : 令 人 不 快 的 110s ( (100 + 110 + 120) / 3 = 
110) 。 





























时 间 


图 7. 2 为 什么 FIF0 没 有 那么 好 








这 个 问题 通常 被 称 为 护航 效应 (convoy effect) [B+79]， 一 些 耗 时 较 
少 的 潜在 资源 消费 者 被 排 在 重量 级 的 资源 消费 者 之 后 。 这 个 调度 方案 
可 能 让 你 想起 在 杂货 店 只 有 一 个 排队 队伍 的 时 候 ， 如 果 看 到 前 面 的 人 
人 
间 - 和。 





提示 : SJF 原 则 


最 短 任务 优先 代表 一 个 总 体 调度 原则 ， 可 以 应 用 于 所 有 系 
统 ， 只 要 其 中 平均 客户 (或 在 我 们 案例 中 的 任务 ) 周转 时 间 
很 重要 。 想 想 你 等 待 的 任何 队伍 : 如 果 有 关 的 机 构 关 心 客户 
满意 度 ， 他 们 可 能 会 考虑 到 SJFf。 例 如 ， 大 超市 通常 都 有 一 个 
“零散 购物 ”的 通道 ， 以 确保 仅 购 买 几 件 东西 的 购物 者 ， 不 
会 堵 在 为 即将 到 来 的 冬天 而 大 量 购物 以 做 准备 的 家 性 后 面 。 

















那么 我 们 该 怎么 办 ? 如 何 开发 一 种 更 好 的 算法 来 处 理 任务 实际 运行 时 
间 不 一 样 的 场景 ? 先 考虑 一 下 ， 然 后 继续 阅读 ， 


7.4 最短 任务 优先 (SJF) 


事实 证 明 ， 一 个 非常 简单 的 方法 解决 了 这 个 问题 。 实 际 上 这 是 从 运筹 
学 中 借鉴 的 一 个 想法 [C54，PV56]， 然 后 应 用 到 计算 机 系统 的 任务 调度 
中 。 这 个 新 的 调度 准则 被 称 为 最 短 任务 优先 〈Shortest Job First， 
SJF) ， 该 名 称 应 该 很 容易 记 住 ， 因 为 它 完 全 描述 了 这 个 策略 : 先 运 行 
最 短 的 任务 ， 然 后 是 次 短 的 任务 ， 如 此 下 去 。 

我 们 用 上 面 的 例子 ， 但 以 SJF 作 为 调度 策略 。 图 7. 3 展示 的 是 运行 A、B 
和 C 的 结果 。 它 清楚 地 说 明了 为 什么 在 考虑 平均 周转 时 间 的 情况 下 ， 


SJF 调 度 策 略 更 好 。 仅 通过 在 A 之 前 运行 B 和 C，SJF 将 平均 周转 时 间 从 
110s 降 低 到 50s ( (10 + 20 + 120) /3 = 50) 。 


B C A 











时 间 


图 7.3 SJF 的 简单 例子 











事实 上 ， 考 虑 到 所 有 工作 同时 到 达 的 假设 ， 我 们 可 以 证 明 SJF 确 实 是 一 
个 最 优 optimal ) 调度 算法 。 但 是 ， 你 是 在 上 操作 系统 课 ， 而 不 是 研 
究 理 论 ， 所 以 ， 这 里 允许 没有 证 明 。 


补充 : 抢占 式 调 度 程序 


在 过 去 的 批 处 理 计 算 中 ， 开 发 了 一 些 非 抢占 式 〈non- 
preemptive) 调度 程序 。 这 样 的 系统 会 将 每 项 工作 做 完 ， 再 
考虑 是 否 运 行 新 工作 。 几 乎 所 有 现代 化 的 调度 程序 都 是 抢占 
式 的 〈preemptive) ， 非 常 愿 意 停 止 一 个 进程 以 运行 另 一 个 
进程 。 这 意味 着 调度 程序 采用 了 我 们 之 前 学 习 的 机 制 。 特 别 
是 调度 程序 可 以 进行 上 下 文 切换 ， 临 时 停止 一 个 运行 进程 ， 

并 恢复 〈 或 启动 ) 另 一 个 进程 。 


























因此 ， 我 们 找到 了 一 个 用 SJF 进 行 调度 的 好 方法 ， 但 是 我 们 的 假设 仍然 
是 不 切实 际 的 。 让 我 们 放宽 男 一 个 假设 。 共 体 来 说 ， 我 们 可 以 针对 假 
设 2， 现 在 假设 工作 可 以 随时 到 达 ， 而 不 是 同时 到 达 。 这 导致 了 什么 问 


题 ? 
《再 次 停 下 来 想 想 …… 你 在 想 吗 ? 加 油 ， 你 可 以 做 到 ) 
在 这 里 我 们 可 以 再 次 用 一 个 例子 来 说 明 问 题 。 现 在 ， 假 设 A 在 上 = 0 时 


到 达 ， 且 需要 运行 100s。 而 B 和 C 在 上 = 10 到 达 ， 且 各 需要 运行 10s。 用 
纯 SJF， 我 们 可 以 得 到 如 图 7. 4 所 示 的 调度 。 


B、C 到 人 达 














时 间 


图 7. 4 B 和 C 晚 到 时 的 SJF 


从 图 中 可 以 看 出 ， 即 使 B 和 C 在 A 之 后 不 久 到 达 ， 它 们 仍然 被 迫 等 到 A 完 
成 ， 从 而 遭遇 同样 的 护航 问题 。 这 3 项 工作 的 平均 周转 时 间 为 
103. 33s， 即 (100+ (110-10) + (120-10) ) /3。 


7.5 最 短 完成 时 间 优 先 《STCF) 





为 了 解决 这 个 问题 ， 需 要 放宽 假设 条 件 〈( 工 作 必 须 保持 运行 直到 完 
成 ) 。 我 们 还 需要 调度 程序 本 身 的 一 些 机 制 。 你 可 能 已 经 猜 到 ， 鉴 于 
我 们 先前 关于 时 钟 中 断 和 上 下 文 切 换 的 讨论 ， 当 B 和 C 到 达 时 ， 调 度 程 
序 当然 可 以 做 其 他 事情 : 它 可 以 抢占 〈preempt ) 工作 A， 并 决定 运行 
另 一 个 工作 ， 或 许 稍 后 继续 工作 A。 根 据 我 们 的 定义 ，S 正 是 一 种 非 抢 
占 式 (non-preemptive) 调度 程序 ， 因 此 存在 上 述 问题 。 


吉 运 的 是 ， 有 一 个 调度 程序 完全 就 是 这 样 做 的 : 癌 SJF 添 加 抢占 ， 称 为 
最 短 完 成 时 间 优 先 (Shortest Time-to-Completion First，STCF) 或 
抢占 式 最 短 作 业 优 先 (Preemptive Shortest Job First ，PSJFE) 调 
度 程序 [CK68] 。 每 当 新 工作 进入 系统 时 ， 它 就 会 确定 剩余 工作 和 新 工 
作 中 ， 谁 的 剩余 时 间 最 少 ， 然 后 调度 该 工作 。 因 此 ， 在 我 们 的 例子 
中 ，STCF 将 抢占 A 并 运行 B 和 C 以 完成 。 只 有 在 它们 完成 后 ， 才 能 调度 A 
的 剩余 时 间 。 图 7. 5 展示 了 一 个 例子 。 
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图 7. 5 ”STCF 的 简单 例子 


结果 是 平均 周转 时 间 大 大 提高 : 50s (……) 。 和 以 前 一 样 ， 考 虑 到 我 
们 的 新 假设 ，STCF 可 证 明 是 最 优 的 。 考 虑 到 如 果 所 有 工作 同时 到 达 ， 
SJF 是 最 优 的， 那么 你 应 该 能 够 看 到 STCF 的 最 优 性 是 符合 直觉 的 。 














7.6 新 度量 指标 : 啊 应 时 间 





因此 ， 如 果 我 们 知道 任务 长 度 ， 而 且 任 务 只 使 用 CPU， 而 我 们 唯一 的 衡 
量 是 周转 时 间 ，STCF 将 是 一 个 很 好 的 策略 。 事 实 上 ， 对 于 许多 早期 批 
处 理 系 统 ， 这 些 类 型 的 调度 算法 有 一 定 的 意义 。 然 而 ， 引 入 分 时 系统 
改变 了 这 一 切 。 现 在 ， 用 户 将 会 坐 在 终端 前 面 ， 同 时 也 要 求 系统 的 交 
互 性 好 。 因 此 ， 一 个 新 的 度量 标准 诞生 了 : 啊 应 时 间 (response 


time) 。 


啊 应 时 间 定 义 为 从 任务 到 达 系 统 到 首次 运行 的 时 间 。 更 正式 的 定义 
是 : 











Typ TE TBAT (1s 2 


例如 ， 如 果 我 们 有 上 面 的 调度 (A 在 时 间 0 到 达 ，B 和 C 在 时 间 10 达 
到 ) ， 每 个 作业 的 啊 应 时 间 如 下 : 作业 A 为 0%，B 为 0，C 为 10〈 平 均 : 
3.937 。 


你 可 能 会 想 ，STCF 和 相关 方法 在 啊 应 时 间 上 并 不 是 很 好 。 例 如 ， 如 果 3 
个 工作 同时 到 达 ， 第 三 个 工作 必须 等 待 前 两 个 工作 全 部 运行 后 才能 运 
行 。 这 种 方法 虽然 有 很 好 的 周转 时 间 ， 但 对 于 响应 时 间 和 交互 性 是 相 
当 糟 糕 的 。 假 设 你 在 终端 前 输入 ， 不 得 不 等 待 10s 才 能 看 到 系统 的 回 
应 ， 只 是 因为 其 他 一 些 工作 已 经 在 你 之 前 被 调度 : 你 肯定 不 太 开心 。 


因此 ， 我 们 还 有 另 一 个 问题 : 如 何 构建 对 啊 应 时 间 敏 感 的 调度 程序 ? 








7.7 轮转 


为 了 解决 这 个 问题 ， 我 们 将 介绍 一 种 新 的 调度 算法 ， 通 党 被 称 为 轮转 
(Round-Robin，RR) 调度 [K64] 。 基 本 思想 很 简单 : RR 在 一 个 时 间 片 
(time slice， 有 时 称 为 调度 量子 ，scheduling quantum) 内 运行 一 
个 工作 ， 然 后 切换 到 运行 队列 中 的 下 一 个 任务 ， 而 不 是 运行 一 个 任务 
直到 结束 。 它 反复 执行 ， 直 到 所 有 任务 完成 。 因 此 ，RR 有 时 被 称 为 时 
间 切 请 〈time-slicing) 。 请 注意 ， 时 间 片 长 度 必 须 是 时 钟 中 断 周期 
的 倍数 。 因 此 ， 如 果 时 钟 中 断 是 每 10ms 中 上 断 一 次 ， 则 时 间 捕 可 以 是 
10ms、20ms 或 10ms 的 任何 其 他 倍数 。 


为 了 更 详细 地 理解 KR， 我 们 来 看 一 个 例子 。 假 设 3 个 任务 A、B 和 C 在 系 
统 中 同时 到 达 ， 并 且 它 们 都 希望 运行 5s。SJF 调 度 程 序 必须 运行 完 当前 
任务 才 可 运行 下 一 个 任务 〈 见 图 7.6) 。 相 比 之 下 ，1s 时 间 片 的 RR 可 以 
快速 地 循环 工作 《〈 见 图 7.7) 。 
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图 7. 6 又 是 SJFE〔( 响 应 时 间 不 好 ) 
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图 7.7 轮转 《响应 时 间 好 ) 


RR 的 平均 响应 时 间 是 : (0 + 1 + 2) /3 = 1; SJF 算法 平均 响应 时 间 
O00 


如 你 所 见 ， 时 间 片 长 度 对 于 RR 是 至 关 重 要 的 。 越 短 ，RR 在 响应 时 间 上 
表现 越 好 。 然 而 ， 时 间 片 太 短 是 有 问题 的 : 突然 上 下 文 切 换 的 成 本 将 








影响 整体 性 能 。 因 此 ， 系 统 设计 者 需要 权衡 时 间 片 的 长 度 ， 使 其 足够 
0 
Ha] MY 。 


提示 : 摊 销 可 以 减少 成 本 


当 系 统 某 些 操作 有 固定 成 本 时 ， 通 常会 使 用 摊 销 技术 
(amortization) 。 通 过 减少 成 本 的 频 度 〈 即 执行 较 少 次 的 
操作 ) ， 系 统 的 总 成 本 就 会 降低 。 例 如 ， 如 果 时 间 片 设置 为 
1l10oms， 并 且 上 下 文 切 换 时 间 为 Ims， 那 么 浪费 大 约 10% 的 时 间 
用 于 上 下 文 切 换 。 如 果 要 摊 销 这 个 成 本 ， 可 以 把 时 间 片 增加 
到 100ms。 在 这 种 情况 下 ， 不 到 1% 的 时 间 用 于 上 下 文 切换 ， 因 
此 时 间 片 带 来 的 成 本 就 被 挫 销 了 。 








请 注意 ， 上 下 文 切换 的 成 本 不 仪 仅 来 自 保存 和 恢复 少量 寄存 器 的 操作 

系统 操作 。 程 序 运 行 时 ， 它 们 在 CPU 高 速 缓存 、TLB、 分 支 预测 器 和 其 

他 片上 硬件 中 建立 了 大 量 的 状态 。 切 换 到 男 一 0 导致 此 状态 被 

人 运行 的 作业 相关 的 新 状态 被 引入 ， 这 可 能 导致 显著 的 
MB91 


如 果 响 应 时 间 是 我 们 的 唯一 指标 ， 那 么 带 有 合理 时 间 片 的 RR， 就 会 是 
非常 好 的 调度 程序 。 但 是 我 们 老 朋 友 的 周转 时 间 呢 ? 再 来 看 看 我 们 的 
例子 。A、B 和 C， 每 个 运行 时 间 为 5s， 同 时 到 达 ，RR 是 具有 (长 ) 1s 时 
间 乒 的 调度 程序 。 从 图 7.7 可 以 看 出 ，A 在 13 完 成 ，B 在 14，(C 在 15， 平 
均 14。 相 当 可 怕 ! 


这 并 不 奇怪 ， 如 果 周 转 时 间 是 我 们 的 指标 ， 那 么 RR 确实 是 最 糟糕 的 策 
略 之 一 。 直 观 地 说 ， 这 应 该 是 有 意义 的 : RR 所 做 的 正 是 延伸 每 个 工 
作 ， 只 运行 每 个 工作 一 小 段 时 间 ， 就 转 癌 下 一 个 工作 。 因 为 周转 时 间 
Re 
FIF0 更 差 。 


更 一 般 地 说 ， 任 何 公 平 (fair)〉 的 政策 (如 RR)〉， 即 在 小 规模 的 时 间 
内 将 CPU 均 匀 分 配 到 活动 进程 之 间 ， 在 周转 时 间 这 文 类 指标 上 表现 不 佳 。 
事实 上 ， 这 是 回 有 的 权衡 : 如 果 你 愿意 不 公平 ， 你 可 以 运行 较 短 的 工 
































作 直 到 完成 ， 但 是 要 以 啊 应 时 间 为 代价 。 如 果 你 重视 公平 性 ， 则 啊 应 
时 间 会 较 短 ， 但 会 以 周转 时 间 为 代价 。 这 种 权衡 在 系统 中 很 常见 。 你 
不 能 既 拥 有 你 的 蛋糕 ， 又 吃 它 -3 。 


我 们 开发 了 两 种 调度 程序 。 第 一 种 类 型 〈SJF、STCF) 优化 周转 时 间 ， 
但 对 响应 时 间 不 利 。 第 二 种 类 型 CRR) 优化 响应 时 间 ， 但 对 周转 时 间 
不 利 。 我 们 还 有 两 个 假设 需要 放宽 : 假设 4〈 作 业 没 有 I/0) 和 假设 
5《〈 每 个 作业 的 运行 时 间 是 已 知 的 ) 。 接 下 来 我 们 来 解决 这 些 假设 。 





提示 : 重合 可 以 提高 利用 率 


如 有 可 能 ， 重 个 (overlap) 操作 可 以 最 大 限度 地 提高 系统 的 
利用 率 。 重 登 在 许多 不 同 的 领域 很 有 用 ， 包 括 执行 磁盘 1/0 或 
将 消息 发 送 到 远程 机 器 时 。 在 任何 一 种 情况 下 ， 开 始 操 作 然 
后 切换 到 其 他 工作 都 是 一 个 好 主意 ， 这 也 提高 了 系统 的 整体 
利用 率 和 效率 。 





7.8 ”结合 1/0 





首先 ， 我 们 将 放宽 假设 4:: 当然 所 有 程序 都 执行 /0。 想 象 一 下 没有 任 
何 输入 的 程序 : 每 次 都 会 产生 相同 的 输出 。 设 想 一 个 没有 输出 的 程 
00 0 


调度 程序 显然 要 在 工作 发 起 1/0 请 求 时 做 出 决定 ， 因 为 当前 正在 运行 的 
作业 在 I/0 期 间 不 会 使 用 CPU， 它 被 阻塞 等 待 T1/0 完 成 。 如 果 将 1/0 发 送 
到 硬盘 驱动 器 ， 则 进程 可 能 会 被 阻塞 几 毫 秒 或 更 长 时 间 ， 具 体 取 决 于 
| 
工人 


调度 程序 还 必须 在 1/0 完 成 时 做 出 决定 。 发 生 这 种 情况 时 ， 会 产生 中 
岂 ， 操 作 系 统 运行 并 将 发 出 1/0 的 进程 从 阻 窗 状态 移 回 就 绪 状 态 。 当 











然 ， 它 甚至 可 以 决定 在 那个 时 候 运 行 该 项 工作 。 操 作 系统 应 该 如 何 处 
理 每 项 工作 ? 


为 了 更 好 地 理解 这 个 问题 ， 让 我 们 假设 有 两 项 工作 A 和 B， 每 项 工作 需 
要 50ms 的 CPU 时 间 。 但 是 ， 有 一 个 明显 的 区 别 : A 运行 10ms， 然 后 发 出 
I/0 请 求 (假设 1/0 每 个 都 需要 10ms ) ， 而 B 只 是 使 用 CPU 50ms， 不 执行 
1/0。 调 度 程序 先 运 行 A， 然 后 运行 B( 见 图 7.8) 。 
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图 7.8 资源 的 糟糕 使 用 


假设 我 们 正在 党 试 构建 STCF 调 度 程 序 。 这 样 的 调度 程序 应 该 如 何 考虑 
到 这 样 的 事实 ， 即 A 分 解 成 5 个 10ms 子 工作 ， 而 B 仅 仅 是 单个 50ms CPU 需 
求 ? 显然 ， 仅 仅 运 行 一 个 工作 ， 然 后 运行 另 一 个 工作 ， 而 不 考虑 如 何 
考虑 I/0 是 没有 意义 的 。 


一 种 常见 的 方法 是 将 A 的 每 个 10ms 的 子 工 作 视 为 一 项 独立 的 工作 。 

此 ， 当 系统 启动 时 ， 它 的 选择 是 调度 10ms 的 A， 还 是 50ms 的 B。 对 于 

STCF， 选 择 是 明确 的 : 选择 较 短 的 一 个 ， 在 这 种 情况 下 是 A。 然 后 ，A 

的 工作 已 完成 ， 只 剩 下 B， 并 开始 运行 。 然 后 提交 A 的 一 个 新 子 工 作 ， 

它 抢 占 B 并 运行 10ms 。 这 样 做 可 以 实现 重用 (overlap) ， 一 个 进程 在 

0 系统 因此 得 到 更 好 的 利用 《〈 见 
人 












































ABABABABAB 


"i 
磁盘 


0 20 40 60 80 100 120 140 
时 间 


图 7.9 重合 可 以 更 好 地 使 用 资源 


这 样 我 们 束 看 到 了 调度 程序 可 能 如 何 结合 I/0。 通 过 将 每 个 CPU 突 发 作 
为 一 项 工作 ， 调 度 程序 确保 “交互 ”的 进程 经 常 运行 。 当 这 些 交 互 式 
作业 正在 执行 /0 时 ， 其 他 CPU 密 集 型 作业 将 运行 ， 从 而 更 好 地 利用 处 
理 器 。 


























7.9 无 法 预知 


有 了 应 对 1/0 的 基本 方法 ， 我 们 来 到 最 后 的 假设 : 调度 程序 知道 每 个 工 
作 的 长 度 。 如 前 所 述 ， 这 可 能 是 可 以 做 出 的 最 糟糕 的 假设 。 事 实 上 ， 
在 一 个 通用 的 操作 系统 中 《比如 我 们 所 关心 的 操作 系统 ) ， 操 作 系 统 
通常 对 每 个 作业 的 长 度 知之 甚 少 。 因 此 ， 我 们 如 何 建 立 一 个 没有 这 种 
先 验 知识 的 SJFE/STCF? 更 进一步 ， 我 们 如 何 能 够 将 已 经 看 到 的 一 些 想 
法 与 RR 调 度 程 序 结合 起 来 ， 以 便 响 应 时 间 也 变 得 相当 不 错 ? 


7. 10 “小 结 


我 们 介绍 了 调度 的 基本 思想 ， 并 开发 了 两 类 方法 。 第 一 类 是 运行 最 短 
的 工作 ， 从 而 优化 周转 时 间 。 第 二 类 是 交 蔡 运行 所 有 工作 ， 从 而 优化 
啊 应 时 间 。 但 很 难 做 到 “ 鱼 与 能 掌 兼 得 ”， 这 是 系统 中 常见 的 、 固 有 
的 折 中 。 我 们 也 看 到 了 如 何 将 1/0 结 合 到 场景 中 ， 但 仍 未 解决 操作 系统 
根本 无 法 看 到 未 来 的 问题 。 稍 后 ， 我 们 将 看 到 如 何 通过 构建 一 个 调度 
程序 ， 利 用 最 近 的 历史 预测 未 来 ， 从 而 解决 这 个 问题 。 这 个 调度 程序 
称 为 多 级 反馈 队列 ， 是 第 8 章 的 主题 。 
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统 中 问题 比较 小 ， 如 今 处 理 器 每 秒 钟 发 出 数 十 亿 条 指令 ， 但 上 下 文 切 
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作业 








scheduler. py 这 个 程序 允许 你 查看 不 同调 度 程序 在 调度 指标 〈 如 响应 
时 间 、 周 转 时 间 和 总 等 竺 时间) 下 的 执行 情况 。 详 情 请 参阅 README 文 
件 。 


问题 








1. 使 用 SJF 和 FIF0 调 度 程序 运行 长 上 度 为 200 的 3 个 作业 时 ， 计 算 啊 应 时 
间 和 周转 时 间 。 


2. 现在 做 同样 的 事情 ， 但 有 不 同 长 度 的 作业 ， 即 100、200 和 300。 
3. 现在 做 同样 的 事情 ， 但 采用 RR 调 度 程 序 ， 时 间 片 为 1。 
4. 对 于 什么 类 型 的 工作 负载 ，SJF 提 供与 FIF0 相 同 的 周转 时 间 ? 


5. 对 于 什么 类 型 的 工作 负载 和 量子 长 度 ，SJF 与 RR 提供 相同 的 响应 时 
间 ? 

6. 随 着 工作 长 度 的 增加 ，SJF 的 啊 应 时 间 会 怎样 ? 你 能 使 用 模拟 程序 
来 展示 趋势 吗 ? 


7. 随 着 量子 长 度 的 增加 ，RR 的 啊 应 时 间 会 怎样 ? 你 能 写 出 一 个 方程 ， 
计算 给 定 人 个 工作 时 ， 最 坏 情况 的 啊 应 时 间 吗 ? 


[1] 讲 这 人 句 话 的 方式 和 你 讲 “A fully-operational Death Star.” 
的 方式 一 样 。 

[2]， 在 这 种 情况 下 建议 采取 的 措施 : 要么 快速 切换 到 男 一 个 队伍 ， 要 
么 深呼吸 并 放松 。 没 错 ， 呼 气 ， 吸 气 。 这 样 会 变 好 的 ， 不 要 担心 。 
[3]， 这 是 一 个 迷惑 人 的 说 法 ， 因 为 它 应 该 是 “你 不 能 保留 你 的 蛋 
糕 ， 又 吃 它 ” (这 很 明显 ， 不 是 吗 ? ) 。 令 人 惊讶 的 是 ， 这 个 说 法 有 
一 个 维基 百科 页 面 。 请 自行 查阅 。 





第 8 章 ”调度 : 多 级 反馈 队列 


本 章 将 介绍 一 种 著名 的 调度 方法 一 一 多 级 反馈 队列 (Multi-level 
Feedback Queue，MLFQ) 。1962 年 ，Corbato 首 次 提出 多 级 反馈 队列 
[C+62]， 应 用 于 兼容 时 分 共享 系统 (CTSS) 。Corbato 因 在 CTSS 中 的 贡 
献 和 后 来 在 Multics 中 的 贡献 ， 获 得 了 ACMVM 和 颁发 的 图 灵 奖 〈Turing 
id 


多 级 反馈 队列 需要 解决 两 方面 的 问题 。 首 先 ， 它 要 优化 周转 时 间 。 在 
第 7 章 中 我 们 看 到 ， 这 通过 先 执 行 短工 作 来 实现 。 人 然而， 操作 系统 通常 
不 知道 工作 要 运行 多 久 ， 而 这 又 是 SJE (或 STCF) 等 算法 所 必需 的 。 其 
次 ，MLFQ 希 望 给 交互 用 户 〈 如 用 户 坐 在 屏幕 前 ， 等 着 进程 结束 ) 很 好 
的 交互 体验 ， 因 此 需要 降低 响应 时 间 。 然 而 ， 像 轮转 这 样 的 算法 虽然 
降低 了 响应 时 间 ， 周 转 时 间 却 很 差 。 所 以 这 里 的 问题 是 : 通常 我 们 对 
进程 一 无 所 知 ， 应 该 如 何 构建 调度 程序 来 实现 这 些 目 标 ? 调度 程序 如 
何在 运行 过 程 中 学 习 进 程 的 特征 ， 从 而 做 出 更 好 的 调度 决策 ? 




















关键 问题 : 没有 完备 的 知识 如 何 调度 ? 


没有 工作 长 度 的 先 验 (priori) 知识 ， 如 何 设计 一 个 能 同时 
减少 啊 应 时 间 和 周转 时 间 的 调度 程序 ? 


提示 : 从 历史 中 学 习 


多 级 反馈 队列 是 用 历史 经 验 预测 未 来 的 一 个 典型 的 例子 ， 操 
作 系 统 中 有 很 多 地 方 采用 了 这 种 技术 (同样 存在 于 计算 机 科 





学 领域 的 很 多 其 他 地 方 ， 比 如 硬件 的 分 文 预测 及 缓存 算 
法 ) 。 如 果 工 作 有 明显 的 阶段 性 行为 ， 因 此 可 以 预测 ， 那 么 
这 种 方式 会 很 有 效 。 当 然 ， 必 须 十 分 小 心地 使 用 这 种 技术 ， 
0 





8.1 MLFQ: 基本 规则 


为 了 构建 这 样 的 调度 程序 ， 本 章 将 介绍 多 级 消息 队列 背后 的 基本 算 
法 。 虽 然 它 有 许多 不 同 的 实现 [E95]， 但 大 多 数 方法 是 类 似 的 。 


MLFQ 中 有 许多 独立 的 队列 (gqueue ) ， 每 个 队列 有 不 同 的 优先 级 
(priority level) 。 任 何 时 刻 ， 一 个 工作 只 能 存在 于 一 个 队列 中 。 
MLFQ 总 是 优先 执行 较 高 优先 级 的 工作 ( 即 在 较 高 级 队列 中 的 工作 )〉。 


当然 ， 每 个 队列 中 可 能 会 有 多 个 工作 ， 因 此 具有 同样 的 优先 级 。 在 这 
种 情况 下 ， 我 们 就 对 这 些 工 作 采 用 轮转 调度 。 


因此 ，MLFQ 调 度 策 略 的 关键 在 于 如 何 设置 优先 级 。MLFQ 没 有 为 每 个 工 
作 指 定 不 变 的 优先 情绪 而 已 ， 而 是 根据 观察 到 的 行为 调整 它 的 优先 
级 。 例 如 ， 如 果 一 个 工作 不 断 放 弃 CPU 去 等 待 键盘 输入 ， 这 是 交互 型 进 
程 的 可 能 行为 ，MLFQ 因 此 会 让 它 保持 高 优先 级 。 相 反 ， 如 果 一 个 工作 
长 时 间 地 占用 CPU，MLFQ 会 降低 其 优先 级 。 通 过 这 种 方式 ，MLFQ 在 进程 
运行 过 程 中 学 习 其 行为 ， 从 而 利用 工作 的 历史 来 预测 它 未 来 的 行为 。 


至 此 ， 我 们 得 到 了 MLFQ 的 两 条 基本 规则 。 














。 规则 1: 如 果 A 的 优先 级 > B 的 优先 级 ， 运 行 A《〈 不 运行 B) 。 
。 规 则 2: 如 果 A 的 优先 级 = B 的 优先 级 ， 轮 转运 行 A 和 B。 


如 果 要 在 某 个 特定 时 刻 展示 队列 ， 可 能 会 看 到 如 下 内 容 《〈 见 图 8. 1) 。 
图 8. 1 中 ， 最 高 优先 级 有 两 个 工作 〈A 和 B) ， 工 作 C 位 于 中 等 优先 级 ， 
而 D 的 优先 级 最 低 。 按 刚才 介绍 的 基本 规则 ， 由 于 A 和 B 有 最 高 优先 级 ， 
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图 8. 1 MLFQ 的 例子 


当然 ， 这 只 是 展示 了 一 些 队列 的 静态 快照 ， 并 不 外 sn een, 
的 工作 原理 。 我 们 需要 理解 工作 的 优先 级 如 何 随时 间 变 化 。 初 次 拿 
本 书 阅读 一 章 的 人 可 能 会 吃惊 ， 这 正 是 我 们 接 下 来 要 做 的 事 。 





8.2 ” 演 试 1: 如 何 改变 优先 级 


我 们 必须 决定 ， 在 一 个 工作 的 生命 周期 中 ，MLFQ 如 何 改变 其 优先 级 
《在 哪个 队列 中 ) 。 要 做 到 这 一 点 ， 我 们 必须 记得 工作 负载 : 既 有 运 
行 时 间 很 短 、 频 繁 放 茎 CPU 的 交互 型 工作 ， 也 有 需要 很 多 CPU 时 间 、 响 
应 时 间 却 不 重要 的 长 时 间 计 算 密集 型 工作 。 下 面 是 我 们 第 一 次 答 试 优 
先 级 调整 算法 。 


。 规则 3: 工作 进入 系统 时 ， 放 在 最 高 优先 级 《最 上 层 队 列 ) 。 

I 
列 ) 。 

。 规则 4b: 如 果 工 作 在 其 时 间 方 以 内 主动 释放 CPU， 则 优先 级 不 变 。 


实例 1: 单个 长 工作 





我 们 来 看 一 些 例子 。 首 先 ， 如 果 系 统 中 有 一 个 需要 长 时 间 运 行 的 工 
作 ， 看 看 会 发 生 什 么 。 图 8. 2 展示 了 在 一 个 有 3 个 队列 的 调度 程序 中 ， 
随 着 时 间 的 推移 ， 这 个 工作 的 运行 情况 。 
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图 8. 2 长 时 间 工作 随时 间 的 变化 


从 这 个 例子 可 以 看 出 ， 该 工作 首先 进入 最 高 优先 级 92) 。 执 行 一 个 
10ms 的 时 间 片 后 ， 调 度 程序 将 工作 的 优先 级 减 1， 因 此 进入 Q1。 在 91 执 
行 一 个 时 间 片 后 ， 最 终 降 低 优先 级 进入 系统 的 最 低 优先 级 〈Q0) ， 一 
直 留 在 那里 。 相 当 简单 ， 不 是 吗 ? 




















再 看 一 个 较 复杂 的 例子 ， 看 看 MLFQ 如 何 近 似 SJE。 在 这 个 例子 中 ， 有 两 
个 工作 : A 是 一 个 长 时 间 运 行 的 CPU 密 集 型 工作 ，B 是 一 个 运行 时 间 很 短 





的 交互 型 工作 。 假 设 A 执 行 一 段 时 间 后 B 到 达 。 会 发 生 什 么 呢 ? 对 B 来 
说 ，MLFQ 会 近似 于 SJF 吗 ? 


图 8. 3 展示 了 这 种 场景 的 结果 。A (用 黑色 表示 ) 在 最 低 优先 级 队列 执 
行 〈《 长 时 间 运 行 的 CPU 密集 型 工作 都 这 样 ) 。B《〈 用 灰色 表示 ) 在 时 间 
产 100 时 到 达 ， 并 被 加 入 最 高 优先 级 队列 。 由 于 它 的 运行 时 间 很 短 〔 只 
有 20ms ) ， 经 过 两 个 时 间 片 ， 在 被 移入 最 低 优先 级 队列 之 前 ，B 执 行 完 
毕 。 然 后 A 继续 运行 (在 低 优先 级 〉。 


通过 这 个 例子 ， 你 大 概 可 以 体会 到 这 个 算法 的 一 个 主要 目标 : 如 果 不 
知道 工作 是 短工 作 还 是 长 工作 ， 那 么 就 在 开始 的 时 候 假设 其 是 短工 

作 ， 并 赋予 最 高 优先 级 。 1 则 很 快 会 执行 完毕 ， 否 
则 将 被 慢 慢 移入 低 优先 级 队列 ， 而 这 时 该 工作 也 被 认为 是 长 工作 了 。 
通过 这 种 方式 ，MLFQ 近 似 于 SJF。 








实例 3: 如 果 有 I/0 呢 


看 一 个 有 I/0 的 例子 。 根 据 上 述 规 则 4b， 如 果 进 程 在 时 间 片 用 完 之 前 主 
动 放 弃 CPU， 则 保持 它 的 优先 级 不 变 。 这 条 条 规则 的 意图 很 简单 : 假设 交 
互 型 工作 中 有 大 量 的 1/0 操 作 〈( 比 如 等 竺 用户 的 键盘 或 鼠标 输入 )， 
会 在 时 间 片 用 完 之 前 放弃 CPU。 在 这 种 情况 下 ， 我 们 不 想 处 罚 它 ， 欠 
保持 它 的 优先 级 不 变 。 


图 8. 4 展示 了 这 个 运行 过 程 ， 交 互 型 工作 B (用 灰色 表示 ) 每 执行 1ms 便 
需要 进行 1/0 操 作 ， 它 与 长 时 间 运 行 的 工作 A 用 黑色 表示 〉 竞争 CPU。 
MLFQ 算 法 保持 B 在 最 高 优先 级 ， 因 为 B 总 是 让 出 CPU。 如 果 B 是 交互 型 工 
作 ，MLFQ 束 进一步 实现 了 它 的 目标 ， 让 交互 型 工作 快速 运行 。 
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图 8. 4 混合 IVZ0 密 集 型 和 CPU 密集 型 工作 负载 


























当前 MLFQ 的 一 些 问 题 


至 此 ， 我 们 有 了 基本 的 MLFQ。 它 看 起 来 似乎 相当 不 错 ， 长 工作 之 间 可 
以 公平 地 分 享 CPU， 又 能 给 短工 作 或 交互 型 工作 很 好 的 响应 时 间 。 然 
而 ， 这 种 算法 有 一 些 非 常 严重 的 缺点 。 你 能 想到 吗 ? 


《暂停 一 下 ， 尽 量 让 脑筋 转 转弯 ) 











首先 ， 会 有 饥饿 〈starvation) 问题 。 如 果 系 统 有 “ 太 多 ”交互 型 工 
作 ， 就 会 不 断 占 用 CPU， 导 致 长 工作 永远 无 法 得 到 CPU 〈 它 们 猴 死 
了 ) 。 即 使 在 这 种 情况 下 ， 我 们 希望 这 些 长 工作 也 能 有 所 进展 。 


其 次 ， 陪 明 的 用 户 会 重 写 程序 ， 轧 弄 调度 程序 (game the 
scheduler) 。 思 于 调 度 程序 指 的 是 用 一 些 插 鄙 的 手段 欺骗 调度 程序 ， 
让 它 给 你 远 超 公平 的 资源 。 上 述 算法 对 如 下 的 攻击 束手无策 ， 进 程 在 
时 间 片 用 完 之 前 ， 调 用 一 个 1/0 操 作 比 如 访问 一 个 无 关 的 文件 )， 从 
而 主动 释放 CPU。 如 此 便 可 以 保持 在 高 优先 级 ， 占 用 更 多 的 CPU 时 间 。 
做 得 好 时 《〈 比 如， 每 运行 9% 的 时 间 片 时 间 就 主动 放弃 一 次 CPU) ， 工 
作 可 以 几乎 独占 CPU。 


最 后 ， 一 个 程序 可 能 在 不 同时 间 表 现 不同 。 一 个 计算 密集 的 进程 可 能 
在 某 段 时 间 表 现 为 一 个 交互 型 的 进程 。 用 我 们 目前 的 方法 ， 它 不 会 部 
受 系统 中 其 他 交互 型 工作 的 待遇 。 











8.3 ”尝试 2: 提升 优先 级 


让 我 们 试 着 改变 之 前 的 规则 ， 看 能 否 避 免 饥 俄 问 题 。 要 让 CPU 和 密集 型 工 
作 也 能 取得 一 些 进 展 ( 即 使 不 多 ) ， 我 们 能 做 些 什么 ? 
一 个 简单 的 思路 是 周期 性 地 提升 (boost〉 所 有 工作 的 优先 级 。 可 以 有 


很 多 方法 做 到 ， 但 我 们 就 用 最 简单 的 : 将 所 有 工作 扔 到 了 最 高 优先 级 队 
列 。 于 是 有 了 如 下 的 新 规则 。 





0 
级 队列 。 


新 规则 一 下 解决 了 两 个 问题 。 首 先 ， 进 程 不 会 饿 死 一 一 在 最 高 优先 级 
队列 中 ， 它 会 以 轮转 的 方式 ， 与 其 他 高 优先 级 工作 分 享 CPU， 从 而 最 终 
获得 执行 。 其 次 ， 如 果 一 个 CPU 密集 型 工作 变 成 了 交互 型 ， 当 它 优先 级 
提升 时 ， 调 度 程 序 会 正确 对 符 它 。 


我 们 来 看 一 个 例子 。 在 这 种 场景 下 ， 我 们 展示 长 工作 与 两 个 交互 型 短 
工作 竞争 CPU 时 的 行为 。 图 8. 5 包含 两 张 图 。 左 边 没 有 优先 级 提升 ， 长 














工作 在 两 个 短工 作 到 达 后 被 饿 死 。 右 边 每 50ms 就 有 一 次 优先 级 提升 
(这 里 只 是 举例 ， 这 个 值 可 能 过 小 ) ， 因 此 至 少 保证 长 工作 会 有 一 些 
进展 ， 每 过 50ms 就 被 提升 到 最 高 优先 级 ， 从 而 定期 获得 执行 。 
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图 8. 5 不 采用 优先 级 提升 〈 左 ) 和 采用 ( 右 ) 


当然 ， 添 加 时 间 段 5 导致 了 明显 的 问题 : 5 的 值 应 该 如 何 设置 ? 德 高 半 
重 的 系统 研究 员 John 0usterhout[011] 曾 将 这 种 值 称 为 “ 巫 毒 常量 
(voo-doo constant) ”， 因 为 似乎 需要 一 些 黑 魔 法 才能 正确 设置 。 
如 果 .5 设 置 得 太 高， 长 工作 会 饥饿 ， 如果 设置 得 太 低 ， 交 互 型 工作 又 得 
不 到 合适 的 CPU 时 间 比 例 。 














8.4” 壬 试 3: 更 好 的 计时 方式 


现在 还 有 一 个 问题 要 解决 :如何 阻 止 调度 程序 被 曲 弄 ? 可 以 看 出 ， 这 
里 的 元 凶 是 规则 4a 和 4b， 导 致 工作 在 时 间 片 以 内 释放 CPU， 就 保留 它 的 
优先 级 。 那 么 应 该 怎么 做 ? 


这 里 的 解决 方案 ， 是 为 MLFQ 的 每 层 队 列 提供 更 完善 的 CPU 计时 方式 
Caccounting) 。 调 度 程序 应 该 记录 一 个 进程 在 某 一 层 中 消耗 的 总 时 
间 ， 而 不 是 在 调度 时 重新 计时 。 只 要 进程 用 完了 目 己 的 配额 ， 就 将 它 
降 到 低 一 优先 级 的 队列 中 去 。 不 论 它 是 一 次 用 完 的 ， 还 是 拆 成 很 多 次 
用 完 。 因 此 ， 我 们 重 写 规则 4a 和 4b。 














。 规则 4: 一 旦 工作 用 完了 其 在 某 一 层 中 的 时 间 配 额 ( 无 论 中 间 主 动 
放弃 了 多 少 次 CPU) ， 就 降低 其 优先 级 〈 移 入 低 一 级 队列 ) 。 


来 看 一 个 例子 。 图 8. 6 对 比 了 在 规则 4a、4b 的 策略 下 《〈 左 图 ) ， 以 及 在 
新 的 规则 4( 右 图 ) 的 策略 下 ， 同 样 试图 愚弄 调度 程序 的 进程 的 表现 。 
没有 规则 4 的 保护 时 ， 进 程 可 以 在 每 个 时 间 片 结束 前 发 起 一 次 1/0 操 
作 ， 从 而 垄断 CPU 时 间 。 有 了 这 样 的 保护 后 ， 不 论 进程 的 1/0 行 为 如 
何 ， 都 会 慢 慢 地 降低 优先 级 ， 因 而 无 法 获得 超过 公平 的 CPU 时 间 比 例 。 


CE 


‘J "nm 





图 8.6 ”不 采用 愚弄 反 制 〈 左 ) 和 采用 《 右 ) 











8.5 MLFQ 调 优 及 其 他 问题 


关于 MLFQ 调 度 算法 还 有 一 些 问题 。 其 中 一 个 大 问题 是 如 何 配置 一 个 调 
度 程 序 ， 例 如 ， 配 置 多 少 队 列 ? 每 一 层 队 列 的 时 间 片 配置 多 大 ? 为 了 
避免 饥饿 问题 以 及 进程 行为 改变 ， 应 该 多 久 提 升 一 次 进程 的 优先 级 ? 
这 些 问题 都 没有 显而易见 的 答案 ， 因 此 只 有 利用 对 工作 负载 的 经 验 ， 
以 及 后 续 对 调度 程序 的 调 优 ， 才 会 导致 令 人 满意 的 平衡 。 


例如 ， 大 多 数 的 MLFQ 变 体 都 支持 不 同 队 列 可 变 的 时 间 睫 长度。 高 优先 
级 队列 通常 只 有 较 短 的 时 间 片 《比如 10ms 或 者 更 少 ) ， 因 而 这 一 层 的 
交互 工作 可 以 更 快 地 切换 。 相 反 ， 低 优先 级 队列 中 更 多 的 是 CPU 密集 型 

















工作 ， 配 置 更 长 的 时 间 片 会 取得 更 好 的 效果 。 图 8. 7 展示 了 一 个 例子 ， 
两 个 长 工作 在 高 优先 级 队列 执行 10ms， 中 间 队 列 执行 20ms， 最 后 在 最 
低 优先 级 队列 执行 40ms。 


提示 : 避免 巫 毒 常量 (0usterhout 和 定律 ) 


尽 可 能 避免 巫 毒 常量 是 个 好 主意 。 然 而 ， 从 上 面 的 例子 可 以 
看 出 ， 这 通常 很 难 。 当 然 ， 我 们 也 可 以 让 系统 自己 去 学 习 
个 很 优化 的 值 ， 但 这 同样 也 不 容易 。 因 此 ， 通 常 我 们 会 有 一 
个 写 满 各 种 参数 值 默 认 值 的 配置 文件 ， 使 得 系统 管理 员 可 以 
方便 地 进行 修改 调整 。 然 而 ， 大 多 数 使 用 者 并 不 会 去 修改 这 
些 默 认 值 ， 这 时 就 寄 希 望 于 默认 值 合适 了 。 这 个 提示 是 由 资 
深 的 0S 教 授 John Ousterhout 提 出 的 ， 因 此 称 为 Ousterhout 定 
律 (Ousterhout” s Law) 。 











Solaris 的 MLFQ 实 现 (时 分 调度 类 TS) 很 容易 配置 。 它 提供 了 一 组 表 来 
决定 进程 在 其 生命 周期 中 如 何 调整 优先 级 ， 每 层 的 时 间 片 多 大 ， 以 及 
多 久 提 升 一 个 工作 的 优先 级 [AD00] 。 管 理 员 可 以 通过 这 些 表 ， 让 调度 
程序 的 行为 方式 不 同 。 该 表 默 认 有 60 层 队列 ， 时 间 片 长 度 从 20ms (最 
人 
: 完 级 ， 





U 2U 100 1 50 200 
图 8. 7 优先 级 越 低 ， 时 间 片 越 长 


其 他 一 些 MLFQ 调 度 程序 没 用 表 ， 甚 至 没 用 本 章 中 讲 到 的 规则 ， 有 些 采 
用 数学 公式 来 调整 优先 级 。 例 如 ，FreeBSD 调 度 程序 (4. 3 版 本 ) ， 会 
基于 当前 进程 使 用 了 多 少 CPU， 通 过 公式 计算 某 个 工作 的 当前 优先 级 
[LM+89] 。 另 外 ， 使 用 量 会 随时 间 衰 减 ， 这 提供 了 期 望 的 优先 级 提升 ， 
但 与 这 里 描述 方式 不 同 。 阅 读 Epema 的 论文 ， 他 漂亮 地 概括 了 这 种 使 用 
量 衰减 (decay-usage) 算法 及 其 特征 [E95] 。 


最 后 ， 许 多 调度 程序 有 一 些 我 们 没有 提 到 的 特征 。 例 如 ， 有 些 调 度 程 
序 将 最 高 优先 级 队列 留 给 操作 系统 使 用 ， 因 此 通常 的 用 户 工 作 是 无 法 
得 到 系统 的 最 高 优先 级 的 。 有 些 系统 允许 用 户 给 出 优先 级 设置 的 建议 
(advice) ， 比 如 通过 命令 行 工 具 nice， 可 以 增加 或 降低 工作 的 优先 
级 (稍微 ， 从 而 增加 或 降低 它 在 某 个 时 刻 运行 的 机 会 。 更 多 信息 请 
查看 man 手 册 。 

















8.6 MLFQ: 小 结 


本 章 介绍 了 一 种 调度 方式 ， 名 为 多 级 反馈 队列 〈MLFQ) 。 你 应 该 已 经 
知道 它 为 什么 叫 这 个 名 字 一 一 它 有 多 级 队列 ， 并 利用 反馈 信息 决定 茶 
个 工作 的 优先 级 。 以 史 为 鉴 : 关注 进程 的 一 贯 表现 ， 然 后 区 别 对 待 。 





提示 : 尽 可 能 多 地 使 用 建议 


操作 系统 很 少 知道 什么 策略 对 系统 中 的 单个 进程 和 每 个 进程 
算是 好 的 ， 因 此 提供 接口 并 允许 用 户 或 管理 员 给 操作 系统 一 
些 提 示 (hint ) 常常 很 有 用 。 我 们 通常 称 之 为 建议 
(advice) ， 因 为 操作 系统 不 一 定 要 关注 它 ， 但 是 可 能 会 将 
建议 考虑 在 内 ， 以 便 做 出 更 好 的 决定 。 这 种 用 户 建议 的 方式 
在 操作 系统 中 的 各 个 领域 经 常 十 分 有 用 ， 包 括 调度 程序 〈 通 
过 nice) 、 内 存 管理 (madvise) ， 以 及 文件 系统 (通知 预 取 
和 缓存 [P+95]) 。 


本 章 包 含 了 一 组 优化 的 MLFQ 规 则 。 为 了 方便 得 疝 ， 我 们 重新 列 在 这 
时 





。 规 则 1: 如 果 A 的 优先 级 》B 的 优先 级 ， 运 行 A《〈 不 运行 B) 。 

。 规则 2: 如 果 A 的 优先 级 = B 的 优先 级 ， 轮 转运 行 A 和 B。 

。 规 则 3: 工作 进入 系统 时 ， 放 在 最 高 优先 级 《〈 最 上 层 队 列 ) 。 

。 规 则 4: 一 旦 工作 用 完了 其 在 茶 一 层 中 的 时 间 配 额 “ 无 论 中间 主 
动 放弃 了 多 少 次 CPU) ， 就 降低 其 优先 级 《移入 低 一 级 队列 ) 。 
的 经 过 一 段 时 间 S， 就 将 系统 中 所 有 工作 重新 加 入 最 高 优先 
级 队列 。 


MLFQ 有 趣 的 原因 是 : 它 不 需要 对 工作 的 运行 方式 有 先 验 知识 ， 而 是 通 
过 观察 工作 的 运行 来 给 出 对 应 的 优先 级 。 通 过 这 种 方式 ，MLFQ 可 以 同 
时 满足 各 种 工作 的 需求 : 对 于 短 时 间 运 行 的 交互 型 工作 ， 获 得 类 似 于 
SJF/STCF 的 很 好 的 全 局 性 能 ， 同 时 对 长 时 间 运 行 的 CPU 密 集 型 负载 也 可 











以 公平 地 、 不 断 地 稳步 向 前 。 因 些 ， 许 多 系统 使 用 某 种 类 型 的 MLFQ 作 
为 自己 的 基础 调度 程序 ， 包 括 类 BSD UNIX 系 统 [LM+89 ，B86] 、 
Solaris[M06j] 以 及 Windows NT 和 其 后 的 Window 系 列 操作 系统 。 
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这 里 的 描述 可 能 有 失 偏颇 ， 但 这 些 讲义 还 是 不 错 的 。 


[B86] “The Design of the UNIX Operating System” 
M. J. Bach 
Prentice-Hall, 1986 


关于 如 何 构建 真正 的 UNIX 操 作 系 统 的 经 典 老 书 之 一 。 对 内 核 黑客 来 
说 ， 这 是 必 读 内 容 。 


[C+62] “An Experimental Time-Sharing System” 
F. J. Corbato, M. M. Daggett, R. C. Daley IFIPS 1962 


有 点 难 读 ， 但 这 是 多 级 反馈 调度 中 许多 首创 想法 的 来 源 。 其 中 大 部 分 
0 人 们 可 以 争辩 说 它 是 有 史 以 来 有 影响 力 的 操作 系 


[CS97] “Inside Windows NT” 
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如 果 你 想 了 解 UNIX 以 外 的 东西 ， 来 读 NT 书 吧 ! 当然 ， 你 为 什么 会 想 ? 
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[E95] “An Analysis of Decay-Usage Scheduling in 
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S.J. Leffler, M.K. Mckusick, M.J. Karels, J.S. Quarterman 
Addison-Wesley, 1989 


男 一 本 操作 系统 经 典 图 书 ， 由 BSD 背 后 的 4 个 主要 人 员 编 写 。 本 书后 面 
的 版 本 虽然 更 新 了 ， 但 感觉 不 如 这 一 版 好 。 





[MO6] “Solaris Internals: Solaris 10 and OpenSolaris Kernel 
Architecture” Richard McDougall 


Prentice-Hall, 2006 
一 本 关于 Solaris 及 其 工作 原理 的 好 书 。 
[011] “John Ousterhout’” s Home Page” John Ousterhout 


著名 的 Ousterhout 教 授 的 主页 。 本 书 的 两 位 合 著 者 一 起 在 研究 生 院 学 
习 0usterhout 的 研究 生 操 作 系 统 课程 。 事 实 上， 这 是 两 位 合 著者 相互 
认识 的 地 方 ， 最 终 他 们 结 了 婚 、 生 了 孩子 ， 还 合 著 了 这 本 书 。 因 此 ， 
你 真 的 可 以 责怪 Ousterhout， 让 你 陷入 这 场 混 乱 。 








[P+95] “Informed Prefetching and Caching” 


R.H. Patterson, G.A. Gibson, E. Ginting, D. Stodolsky, J. 
Zelenka SOSP ” 95 


关于 文件 系统 中 一 些 非常 酷 的 创意 的 有 趣 文 章 ， 其 中 包括 应 用 程序 如 
何 向 操作 系统 提供 关于 它 正 在 访问 哪些 文件 ， 以 及 它 计划 如 何 访问 这 
些 文件 的 建议 。 


作业 


程序 mlfq. py 人 允许 你 查看 本 章 介 绍 的 MLFQ 调 度 程 序 的 行为 。 详 情 请 参阅 
README 文 件 。 








问题 


1. 只 用 两 个 工作 和 两 个 队列 运行 几 个 随机 生成 的 问题 。 针 对 每 个 工作 
下 松 。 


2. 如 何 运行 调度 程序 来 重 现 本 章 中 的 每 个 实例 ? 
3. 将 如 何 配 置 调度 程序 参数 ， 像 轮转 调度 程序 那样 工作 ? 


4. 设计 两 个 工作 的 负载 和 调度 程序 参数 ， 以 便 一 个 工作 利用 较 早 的 规 
则 4a 和 4b (用 -S 标 志 打 开 ) 来 “愚弄 ”调度 程序 ， 在 特定 的 时 间 间 隔 
内 获得 99% 的 CPU。 


5. 给 定 一 个 系统 ， 其 最 高 队列 中 的 时 间 卢 长 度 为 10ms， 你 需要 如 何 频 
繁 地 将 工作 推 回 到 最 高 优先 级 级 别 ( 禹 有 -B 标 志 )〉 ， 以 保证 一 个 长 时 
间 运 行 〈 并 可 能 饥 猴 ) 的 工作 得 到 至 少 5% 的 CPU? 


6. 调度 中 有 一 个 问题 ， 即 刚 完 成 IV0 的 作业 添加 在 队列 的 哪 一 器 。-I 


标志 改变 了 这 个 调度 模拟 器 的 这 方面 行为 。 答 试 一 些 工 作 负载 ， 看 看 
你 是 否 能 看 到 这 个 标志 的 效果 。 

















第 9 章 ”调度 : 比例 份额 


在 本 章 中 ， 我 们 来 看 一 个 不 同类 型 的 调度 程序 一 一 比例 份额 

(proportional-share ) 调度 程序 ， 有 时 也 称 为 公平 份额 (fair- 
share) 调度 程序 。 比 例 份额 算法 基于 一 个 简单 的 想法 : 调度 程序 的 最 
终 目标 ， 是 确保 每 个 工作 获得 一 定 比例 的 CPU 时 间 ， 而 不 是 优化 周转 时 
则 和 啊 应 时 间 。 


比例 份额 调度 程序 有 一 个 非常 优秀 的 现代 例子 ， 由 Waldspurger 和 
Weihl 发 现 ， 名 为 彩票 调度 (lottery scheduling) [WW94] 。 但 这 个 
想法 其 实 出 现 得 更 早 [KL88] 。 基 本 思想 很 简单 : 每 隔 一 段 时 间 ， 都 会 
举行 一 次 彩票 抽奖 ， 以 确定 接 下 来 应 该 运行 哪个 进程 。 越 是 应 该 频繁 
运行 的 进程 ， 越 是 应 该 拥有 更 多 地 赢得 彩票 的 机 会 。 很 简单 吧 ? 现 
在 ， 谈 谈 细节 ! 但 还 是 先 看 看 下 面 的 关键 问题 。 




















关键 问题 : 如 何 按 比例 分 配 CPU 


如 何 设计 调度 程序 来 按 比 例 分 配 CPU? 其 关键 的 机 制 是 什么 ? 
效率 如 何 ? 


9.1 基本 概念 : 彩票 数 表示 份额 


彩票 调度 背后 是 一 个 非常 基本 的 概念 ; 彩票 数 〈ticket ) 代表 了 进程 
《或 用 户 或 其 他 ) 占有 某 个 资源 的 份额 。 一 个 进程 拥有 的 彩票 数 占 总 
彩票 数 的 百分比 ， 就 是 它 占有 资源 的 份额 。 


下 面 来 看 一 个 例子 。 假 设 有 两 个 进程 A 和 B，A 拥 有 75 张 彩票 ，B 拥 有 25 
张 。 因 此 我 们 希望 A 占用 75% 的 CPU 时 间 ， 而 B 占 用 25%。 





通过 不 断定 时 地 《比如 ， 每 个 时 间 片 ) 抽取 彩票 ， 彩 票 调度 从 概率 上 
《但 不 是 确定 的 ) 获得 这 种 份额 比例 。 抽 取 彩 票 的 过 程 很 简单 : 调度 
程序 知道 总 共 的 彩票 数 〈 在 我 们 的 例子 中 ， 有 100 张 ) 。 调 度 程序 抽取 
中 奖 彩 票 ， 这 是 从 0 和 99. 之 间 的 一 个 数 ， 拥 有 这 个 数 对 应 的 彩票 的 进 
程 中 奖 。 假 设 进程 A 拥 有 0 到 74 共 75 张 彩票 ， 进 程 B 拥 有 75 到 99 的 25 张 ， 
运行 它 。 


下 和 面 是 


NA 


本 > 








提示 : 利用 随机 性 


彩票 调度 最 精彩 的 地 方 在 于 利用 了 随机 性 (randomness) 。 
0 
和 选择 。 


随机 方法 相对 于 传统 的 决策 方式 ， 至 少 有 3 点 优势 。 第 一 ， 随 
机 方法 常常 可 以 避免 奇怪 的 边 角 情 况 ， 较 传统 的 算法 可 能 在 
处 理 这 些 情 况 时 遇 到 麻烦 。 例 如 LRU 蔡 换 策略 ( 稍 后 会 在 虚拟 
内 存 的 章节 详细 介绍 ) 。 虽 然 LRU 通 常 是 很 好 的 蔡 换 算法 ， 但 
ee 
1 二 7 


第 二 ， 随 机 方法 很 轻 量 ， 几 了 乎 不 需要 记录 任何 状态 。 在 传统 
的 公平 份额 调度 算法 中 ， 记 录 每 个 进程 已 经 获得 了 多 少 的 CPU 
时 间 ， 需 要 对 每 个 进程 计时 ， 这 必须 在 每 次 运行 结束 后 更 
新 。 而 采用 随机 方式 后 每 个 进程 只 需要 非常 少 的 状态 〈 即 每 
个 进程 拥有 的 彩票 号 码 ) 。 


第 三 ， 随 机 方法 很 快 。 只 要 能 很 快 地 产生 随机 数 ， 做 出 决策 
就 很 快 。 因 此 ， 随 机 方式 在 对 运行 速度 要 求 高 的 场景 非常 适 
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票 调度 程序 输出 的 中 奖 彩 票 : 


63 85 70 39 76 17 29 41 36 39 10 99 68 83 63 62 43 0 49 49 


下 面 是 对 应 的 调度 结果 : 


A A A A A A A A A A A A A A A A 
B B B B 


从 这 个 例子 中 可 以 看 出 ， 彩 票 调度 中 利用 了 随机 性 ， 这 导致 了 从 概率 
上 满足 期 望 的 比例 ， 但 并 不 能 确保 。 在 上 面 的 例子 中 ， 工 作 B 运 行 了 20 
个 时 间 片 中 的 4 个 ， 只 是 占 了 20%， 而 不 是 期 望 的 25%。 但 是 ， 这 两 个 工 
作 运 行 得 时 间 越 长 ， 它 们 得 到 的 CPU 时 间 比 例 就 会 越 接近 期 望 。 


提示 : 用 彩票 来 表示 份额 


彩票 〈 步 长 ) 调度 的 设计 中 ， 最 强大 〈 且 最 基本 ) 的 机 制 是 
彩票 。 在 这 些 例 子 中 ， 彩 票 用 于 表示 一 个 进程 占有 CPU 的 份 
额 ， 但 也 可 以 用 在 更 多 的 地 方 。 比 如 在 虚拟 机 管理 程序 的 虚 
存 管理 的 最 新 研究 工作 中 ，Waldspurger 提 出 了 用 彩票 来 表示 
用 户 占 用 操作 系统 内 存 份 额 的 方法 LW02] 。 因 此 ， 如 果 你 需要 
通过 什么 机 制 来 表示 所 有 权 比 例 ， 这 个 概念 可 能 就 是 彩票 。 














9.2 彩票 机 制 





彩票 调度 还 提供 了 一 些 机 制 ， 以 不 同 且 有 效 的 方式 来 调度 彩票 。 一 种 
方式 是 利用 彩票 货币 (ticket currency) 的 概念 。 这 种 方式 允许 拥有 
一 组 彩票 的 用 户 以 他 们 喜欢 的 某 种 货币 ， 将 彩票 分 给 目 己 的 不 同 工 
作 。 之 后 操作 系统 再 自动 将 这 种 货币 兑换 为 正确 的 全 局 彩票 。 


比如 ,假设 用 户 A 和 用 户 B 每 人 拥有 100 张 彩票 。 用 户 A 有 两 个 工作 Al 和 
A2， 他 以 自己 的 货币 ， 给 每 个 工作 500 张 彩票 〈 共 1000 张 ) 。 用 户 B 只 
运行 一 个 工作 ， 给 它 10 张 彩票 〈 总 共 10 张 ) 。 操 作 系 统 将 进行 兑换 ， 
将 A1 和 A2 拥 有 的 A 的 货币 500 张 ， 兑 换 成 全 局 货币 50 张 。 类 似 地 ， 竞 换 
给 Bl 的 10 张 彩票 兑换 成 100 张 。 然 后 会 对 全 局 彩票 货币 〈 共 200 张 ) 举 
行 抽奖 ， 决 定 哪 个 工作 运行 。 


User A -> 500 (A's currency) to Al -> 50 (global currency) 
-> 500 (A's currency) to A2 -> 50 (global currency) 
User B -> 10 (B's currency) to Bl -> 100 (global currency) 


男 一 个 有 用 的 机 制 是 彩票 转让 (ticket transfer) 。 通 过 转让 ， 
进程 可 以 临时 将 自己 的 彩票 交 给 男 一 个 进程 。 这 种 机 制 在 客户 0 
端 交 互 的 场景 中 尤其 有 用 ， 在 这 种 场景 中 ， 客 户 端 进程 问 服 务 端 发 送 
消息 ， 请 求 其 按 上 自己 的 需求 执行 工作 ， 为 了 加 速 服务 端的 执行 ， 客 户 
端 可 以 将 自己 的 彩票 转让 给 E 加 速 服务 端 执行 自己 
请 求 的 速度 。 服 务 端 执行 红 二 束 后 会 将 这 分 彩票 归还 给 客户 端 。 


最 后 ， 彩 票 通 胀 〈ticket inflation) 有 时 也 很 有 用 。 利 用 通胀 ， 一 
个 进程 可 以 临时 提升 或 降低 自己 拥有 的 彩票 数量 。 当 然 在 竞争 环境 
进程 之 间 互 相 不 信任 ， 这 种 机 制 就 没什么 意义 。 一 个 贫 要 的 进程 
可 能 给 自己 非常 多 的 彩票 ， 从 而 接管 机 器 。 但 是 ， 通 胀 可 以 用 于 进程 
之 间 相互 信任 的 环境 。 在 这 种 情况 下 ， 如 果 一 个 进程 知道 它 需 要 更 多 
CPU 时 间 ， 就 可 以 增加 自己 的 彩票 ， 从 而 将 自己 的 需求 告知 操作 系统 ， 
这 一 切 不 需要 与 任何 其 他 进程 通信 。 








人 现 


将 





彩票 调度 中 最 不 可 思 议 的 ， 或 许 就 是 实现 简单 。 只 需要 一 个 不 错 的 随 
机 数 生成 器 来 选择 中 奖 彩 票 和 一 个 记录 系统 中 所 有 进程 的 数据 结构 
《一 个 列表 ) ， 以 及 所 有 彩票 的 总 数 。 


假定 我 们 用 列表 记录 进程 。 下 面 的 例子 中 有 A、B、C 这 3 个 进程 ， 每 个 
进程 有 一 定数 量 的 彩票 。 








Job:A Job'B Job’C 
head NU 


在 做 出 调度 决策 之 前 ， Oo 个 随机 数 〈 中 奖 
号 码 ) 2。 假设 选择 了 300。 然 后 ， 人 遍历 链 表 ， 用 一 个 简单 的 计数 器 帮 
助 我 们 找到 中 奖 者 “ 见 图 9. 1〉。 





了 // counter: used to track if we've found the winner yet 
2 int counter = 0; 

3 

4 // winner: use some call to a random number generator to 
S // get a value, between 0 and the total # of tickets 
6 int winner = getrandom(0, totaltickets); 

7 

8 // current: use this to walk through the list of jobs 

9 node t *current = head; 

10 

让 下 // loop until the sum of ticket Values is > the winneL 
12 while (current) { 

13 counter = counter + current->tickets; 

14 if (counter > winner) 

15 break; // found the winner 

16 current = current->next; 

二 了 } 

于 8 // 'current' is the winner: schedule it... 





图 9. 1 彩票 调度 决定 代码 


这 段 代 码 从 前 问 后 裔 历 进 程 列表 ， 将 每 张 票 的 值 加 到 counter 上 ， 直 到 
值 超 过 winner。 这 时 ， 当 前 的 列表 元 素 所 对 应 的 进程 束 是 中 奖 者 。 在 
我 们 的 例子 中 ， 中 奖 彩 票 是 300。 首 先 ， 计 A 的 票 后 ， counter 增 加 到 
， 因为 100 小 于 300， 继 续 裔 历 。 然 后 counter 会 增加 到 150 (B 的 彩 

， 仍 然 小 于 300， 继 续 人 遍历 。 最 后 ，counter 增 加 到 400( 显 然 大 于 
、 因此 退出 遍历 ，current 指 向 C( 中 奖 者 ) 。 


要 让 这 个 过 程 更 有 效率 ， 建 议 将 列表 项 按照 彩票 数 递减 排序 。 这 个 顺 
序 并 不 会 影响 算法 的 正确 性 ， 但 能 保证 用 最 小 的 达 代 次 数 找到 需要 的 
节点 ， 尤 其 当 大 多 数 彩票 被 少数 进程 掌握 时 。 





9.4 一 个 例子 








为 了 更 好 地 理解 彩票 调度 的 运行 过 程 ， 我 们 现在 简单 研究 一 下 两 个 互 
相 苋 争 工作 的 完成 时 间 ， 每 个 工作 都 有 相同 数目 的 100 张 彩票 ， 以 及 相 
同 的 运行 时 间 R( 稍 后 会 改变 ) 。 











这 种 情况 下 ， 我 们 希望 两 个 工作 在 大 约 同时 完成 ， 但 由 于 彩票 调度 算 
法 的 随机 性 ， 有 时 一 个 工作 会 先 于 另 一 个 完成 。 为 了 量化 这 种 区 别 ， 
我 们 定义 了 一 个 简单 的 不 公平 指标 WV (unfairness metric) ， 将 两 个 
工作 完成 时 刻 相 除 得 到 W 的 值 。 比 如 ， 运 行 时 间 f 为 10， 第 一 个 工作 在 
时 刻 10 完 成 ， 另 一 个 在 20，F10/20=0.5。 如 果 两 个 工作 几乎 同时 完 
成 ，L 的 值 将 很 接近 于 1。 在 这 种 情况 下 ， 我 们 的 目标 是 : 完美 的 公平 
调度 程序 可 以 做 到 LE1。 


图 9. 2 展示 了 当 两 个 工作 的 运行 时 间 从 1 到 1000 变 化 时 ，30 次 试验 的 平 
均值 “利用 本 章 末尾 的 模拟 器 产生 的 结果 ) 。 可 以 看 出 ， 当 工作 执行 
时 间 很 短 时 ， 平 均 不 公平 度 非 常 糟 糙 。 只 有 当 工 作 执行 非常 多 的 时 间 
片 时 ， 彩 票 调度 算法 才能 得 到 期 望 的 结果 。 
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图 9. 2 彩票 公平 性 研究 














9.5 如何 分 配 彩 票 





关于 彩票 调度 ， 还 有 一 个 问题 没有 提 到 ， 那 束 是 如 何 为 工作 分 配 彩 
了 票 ? 这 是 一 个 非常 坏 手 的 问题 ， 系 统 的 运行 严重 依赖 于 彩票 的 分 配 。 
假设 用 户 自 己 知道 如 何 分 配 ， 因 此 可 以 给 每 个 用 户 一 定量 的 彩票 ， 由 
用 户 按 照 需要 自主 分 配给 自己 的 工作 。 然 而 这 种 方案 似乎 什么 也 没有 
解决 一 一 还 是 没有 给 出 具体 的 分 配 策略 。 因 此 对 于 给 定 的 一 组 工作 ， 


彩票 分 配 的 问题 依然 没有 最 佳 答案 。 








9.6 为 什么 不 是 确定 的 


你 可 能 还 想 知 道 ， 完 竟 为 什么 要 利用 随机 性 ? 从 上 面 的 内 容 可 以 看 
出 ， 虽 然 随 机 方式 可 以 使 得 调度 程序 的 实现 简单 〈 且 大 致 正确 ) ， 但 
偶尔 并 不 能 产生 正确 的 比例 ， 尤 其 在 工作 运行 时 间 很 短 的 情况 下 。 由 
于 这 个 原因 ，Waldspurger 提 出 了 步 长 调度 (stride scheduling) ， 
一 个 确定 性 的 公平 分 配 算法 [W95] 。 


步 长 调度 也 很 简单 。 系 统 中 的 每 个 工作 都 有 自己 的 步 长 ， 这 个 值 与 票 
数值 成 反比 。 在 上 面 的 例子 中 ，A、B、C 这 3 个 工作 的 票数 分 别 是 100、 
50 和 250， 我 们 通过 用 一 个 大 数 分 别 除 以 他 们 的 票数 来 获得 每 个 进程 的 
步 长 。 比 如 用 10000 除 以 这 些 票数 值 ， 得 到 了 3 个 进程 的 步 长 分 别 为 
100、200 和 40。 我 们 称 这 个 值 为 每 个 进程 的 步 长 (stride) 。 每 次 进 
程 运行 后 ， 我 们 会 让 它 的 计数 器 [ 称 为 行程 (pass ) 值 ] 增加 它 的 步 
长 ， 记 录 它 的 总 体 进展 。 


之 后 ， 调 度 程序 使 用 进程 的 步 长 及 行程 值 来 确定 调度 哪个 进程 。 基 本 
思路 很 简单 : 当 需 要 进行 调度 时 ， 选 择 目 前 拥有 最 小 行程 值 的 进程 ， 
并 且 在 运行 之 后 将 该 进程 的 行程 值 增 加 一 个 步 长 。 下 面 是 
Waldspurger[W95] 给 出 的 伪 代 码 : 











current = remove min(queue) ， // pick client with minimum pass 
schedule (current); // use resource for quantum 
current->pass += current->stride; // compute next pass using stride 





insert (queue, current); // put back into the queue 


在 我 们 的 例子 中 ，3 个 进程 (A、B、C) 的 步 长 值 分别 为 100、200 和 
40， 初 始 行程 值 都 为 0(。 因 此 ， 最 初 ， 所 有 进程 都 可 能 被 选择 执行 。 假 
设 选择 A〈 任 意 的 ， 所 有 具有 同样 低 的 行程 值 的 进程 ， 都 可 能 被 选 
中 ) 。A 执 行 一 个 时 间 片 后 ， 更 新 它 的 行程 值 为 100。 然 后 运行 B， 并 更 
新 其 行程 值 为 200。 最 后 执行 C，C 的 行程 值 变 为 40。 这 时 ， 算 法 选择 最 
小 的 行程 值 ， 是 C， 执 行 并 增加 为 80〈C 的 步 长 是 40) 。 然 后 C 再 次 运行 
(依然 行程 值 最 小 ) ， 行 程 值 增加 到 120。 现 在 运行 A， 更 新 它 的 行程 
值 为 200〈 现 在 与 B 相 同 ) 。 然 后 C 再 次 连续 运行 两 次 ， 行 程 值 也 变 为 
200。 此 时 ， 所 有 行程 值 再 次 相等 ， 这 个 过 程 会 无 限 地 重复 下 去 。 表 
9. 1 展示 了 一 段 时 间 内 调度 程序 的 行为 。 


表 9. 1  ” 步 长 调度 : 记录 
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可 以 看 出 ，C 运 行 了 5 次 、A 运 行 了 2 次 ，B 一 次 ， 正 好 是 票数 的 比例 一 一 
200、100 和 50。 彩 票 调度 算法 只 能 一 段 时 间 后 ， 在 概率 上 实现 比例 ， 
而 步 长 调度 算法 可 以 在 每 个 调度 周期 后 做 到 完全 正确 。 


你 可 能 想 知道 ， 既 然 有 了 可 以 精确 控制 的 步 长 调度 算法 ， 为 什么 还 要 
彩票 调度 算法 呢 ? 好 吧 ， 彩 票 调度 有 一 个 步 长 调度 没有 的 优势 一 一 不 
需要 全 局 状态 。 假 如 一 个 新 的 进程 在 上 面 的 步 长 调度 执行 过 程 中 加 入 
系统 ， 应 该 怎么 设置 它 的 行程 值 呢 ? 设置 成 0 吗 ? 这样 的 话 ， 它 就 独占 
CPU 了。 而 彩票 调度 算法 不 需要 对 每 个 进程 记录 全 局 状态 ， 只 需要 用 新 
进程 的 票数 更 新 全 局 的 总 票数 就 可 以 了 。 因 此 彩票 调度 算法 能 够 更 合 
理 地 处 理 新 加 入 的 进程 。 

















9.7 小 结 


本 章 介 绍 了 比例 份额 调度 的 概念 ， 并 简单 讨论 了 两 种 实现 : 彩票 调度 
和 步 长 调度 。 彩 票 调度 通过 随机 值 ， 聪 明 地 做 到 了 按 比例 分 配 。 步 长 
调度 算法 能 够 确定 的 获得 需要 的 比例 。 虽 然 两 者 都 很 有 趣 ， 但 由 于 一 
些 原因 ， 并 没有 作为 CPU 调度 程序 被 广泛 使 用 。 一 个 原因 是 这 两 种 方式 
都 不 能 很 好 地 适合 I[/0LAC97]; 男 一 个 原因 是 其 中 最 难 的 票数 分 配 问题 
并 没有 确定 的 解决 方式 ， 例 如 ， 如 何 知道 浏览 器 进程 应 该 拥有 和 多少 票 
数 ? 通用 调度 程序 ( 像 前 面 讨论 的 MLFQ 及 其 他 类 似 的 Linux 调 度 程序 ) 
做 得 更 好 ， 因 此 得 到 了 广泛 的 应 用 。 


结果 ， 比 例 份 额 调度 程序 只 有 在 这 些 问题 可 以 相对 容易 解决 的 领域 更 
有 用 (例如 容易 确定 份额 比例 ) 。 例 如 在 虚拟 (virtualized) 数据 中 
心中 ， 你 可 能 会 希望 分 配 1/4 的 CPU 周 期 给 Windows 虚 拟 机 ， 剩 余 的 给 
Linux 系 统 ， 比 例 分 配 的 方式 可 以 更 简单 高 效 。 详 细 信 息 请 参考 
Waldspurger [W02] ， 该 文 介绍 了 人 VMWare 的 ESX 系 统 如 何 用 比例 分 配 的 
方式 来 共享 内 存 。 
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[WW94] “Lottery Scheduling: Flexible Proportional-Share 
Resource Management” Carl A. Waldspurger and William E. Weih!l 





OSDI ” 94, November 1994 


关于 彩票 调度 的 里 程 碑 式 的 论文 ， 让 调度 、 公 平分 享 和 简单 随机 算法 
的 力量 在 操作 系统 社区 重新 焕发 了 活力 。 


[W95] “Lottery and Stride Scheduling: Flexible Proportional- 
Share Resource Management” Carl A. Waldspurger 


Ph.D. Thesis, MIT, 1995 


Waldspurger 的 获奖 论文 ， 概 述 了 彩票 和 步 长 调度 。 如 果 你 想 写 一 篇 博 
士 论 文 ， 总 应 该 有 一 个 很 好 的 例子 ， 让 你 有 个 努力 的 方向 : 这 是 一 个 
很 好 的 例子 。 





[WO2] “Memory Resource Management in VMware ESX Server” Carl 
A. Waldspurger 


OSDI ” 02, Boston, Massachusetts 


关于 VMM 〈 虚 拟 机 管理 程序 ) 中 的 内 存 管理 的 文章 。 除 了 相对 容易 阅读 
之 外 ， 该 论文 还 包含 许多 有 关 新 型 VMM 层 面 内 存 管理 的 很 酷 的 想法 。 





作业 








lottery. py 这 个 程序 允许 你 查看 彩票 调度 程序 的 工作 原理 。 详 情 请 参 
阅 README 文 件 。 





问题 


1. 计算 3 个 工作 在 随机 种 子 为 1、2 和 3 时 的 模拟 解 。 


2. 现在 运行 两 个 具体 的 工作 : 每 个 长 度 为 10， 但 是 一 个 〈 工 作 0) 只 
有 一 张 彩票 ， 男 一 个 (工作 1) 有 100 张 〈-1 10 : 1,10 :100) 。 


a 
0 这 种 彩票 不 平衡 对 彩票 调度 的 行为 有 什么 晤 
Hl? 


3. 如 果 运 行 两 个 长 度 为 100 的 工作 ， 都 有 100 张 彩票 
(一 1100 : 100, 100 : 100) ， 调 度 程 序 有 多 不 公平 ? 运行 一 些 不 同 的 随 
机 种 子 来 确定 (概率 上 的 ) 答案 。 不 公平 性 取决 于 一 项 工作 比 另 一 项 
下 作 早 定 威 和 多少。 

















4.， 随 着 量子 规模 〈-q) 变 大 ， 你 对 上 一 个 问题 的 答案 如 何 改变 ? 
5， 你 可 以 制作 类 似 本 章 中 的 图 表 吗 ? 

还 有 什么 值得 探讨 的 ? 用 步 长 调度 程序 ， 图 表 看 起 来 如 何 ? 

[1， 计算机 科学 家 总 是 从 0 开始 计数 。 对 于 非 计算 机 类 型 的 人 来 说 ， 
这 非常 奇怪 ， 所 以 著名 人 士 不 得 不 撰文 说 明 这 样 做 的 原因 [D82] 。 


[2] 令 人 惊讶 的 是 ， 正 如 Bj5rn Lindberg 所 指出 的 那样 ， 要 做 对 ， 这 
可 能 是 一 个 挑战 。 


第 10 章 ”多 处 理 器 调度 (高 级 ) 


本 章 将 介绍 多 人 处理 器 调度 (multiprocessor scheduling) 的 基础 知 
识 。 由 于 本 章 内 容 相 对 较 深 ， 建 议 认 真 学 习 并 发 相关 的 内 容 后 再 读 。 


过 去 很 多 年 ， 多 处 理 器 (multiprocessor ) 系统 只 存在 于 高 端 服务 器 
中 。 现 在 ， 它 们 越 来 越 多 地 出 现在 个 人 PC、 笔 记 本 电脑 甚至 移动 设备 
上 。 多 核 处 理 器 (multicore) 将 多 个 CPU 核 组 装 在 一 块 芯片 上 ， 是 这 
种 扩散 的 根源 。 由 于 计算 机 的 架构 师 们 当时 难以 让 单 核 CPU 更 快 ， 同 时 
又 不 增加 太 多 功 耗 ， 所 以 这 种 多 核 CPU 很 快 就 变 得 流行 。 现 在 ， 我 们 每 
个 人 都 可 以 得 到 一 些 CPU， 这 是 好 事 ， 对 吧 ? 


当然 ， 多 核 CPU 带 来 了 许多 困难 。 主 要 困难 是 典型 的 应 用 程序 〈 例 如 你 
写 的 很 多 C 程 序 ) 都 只 使 用 一 个 CPU， 增 加 了 更 多 的 CPU 并 没有 让 这 类 程 
序 运行 得 更 快 。 为 了 解决 这 个 问题 ， 不 得 不 重 写 这 些 应 用 程序 ， 使 之 
能 并 行 (parallel) 执行 ， 也 许 使 用 多 线程 〈thread， 本 书 的 第 2 部 分 
将 用 较 多 篇 幅 讨 论 ) 。 多 线程 应 用 可 以 将 工作 分 散 到 多 个 CPU 上 ， 因 此 
CPU 资 源 越 多 惑 运 行 越 快 。 








补充 : 高 级 章节 


需要 阅读 本 书 的 更 多 内 容 才 能 真正 理解 高 级 章节 ， 但 这 些 内 
容 在 逻辑 上 放 在 一 章 里 。 例 如 ， 本 章 是 关于 多 处 理 器 调度 
的 ， 如 果 先 学 习 了 中 间 部 分 的 并 发 知识 ， 会 更 有 意思 。 但 
是 ， 从 逻辑 上 它 属于 本 书 中 虚拟 化 (一般) 和 CPU 调 度 ( 具 
体 ) 的 部 分 。 因 此 ， 建 议 不 按 顺 序 学 习 这 些 高 级 章节 。 对 于 
本 章 ， 建 议 在 本 书 第 2 部 分 之 后 学 习 。 











除了 应 用 程序 ， 操 作 系 统 遇 到 的 一 个 新 的 问题 是 〈 不 奇怪 ! ) 多 处 理 
器 调度 (multiprocessor Scheduling) 。 到 目前 为 止 ， 我 们 讨论 了 许 


多 单 处 理 器 调度 的 原则 ， 那 么 如 何 将 这 些 想 法 扩展 到 多 处 理 器 上 呢 ? 
还 有 什么 新 的 问题 需要 解决 ? 因此， 我 们 的 问题 如 下 。 


关键 问题 : 如 何在 多 处 理 器 上 调度 工作 


操作 系统 应 该 如 何在 多 CPU 上 调度 工作 ? 会 遇 到 什么 新 问题 ? 
己 有 的 技术 依旧 适用 吗 ? 是 人 否 需 要 新 的 思路 ? 





10.1 背景 : 多 处 理 器 架构 


为 了 理解 多 处 理 器 调度 带 来 的 新 间 题 ， 必 须 先 知道 它 与 单 CPU 之 间 的 基 
本 区 别 。 区 别 的 核心 在 于 对 硬件 缓存 (cache) 的 使 用 〈 见 图 10.1) ， 
以 及 多 处 理 器 之 间 共 享 数据 的 方式 。 本 章 将 在 较 高 层面 讨论 这 些 问 
题 。 更 多 信息 可 以 其 他 地 方 找到 [CSG99]， 尤 其 是 在 高 年 级 或 研究 生计 
算 机 架构 课程 中 。 


在 单 CPU 系 统 中 ， 存 在 多 级 的 硬件 缓存 (hardware cache) ， 一 般 来 说 
会 让 处 理 器 更 快 地 执行 程序 。 绥 存 是 很 小 但 很 快 的 存储 设备 ， 通 第 拥 
有 内 存 中 最 热 的 数据 的 备份 。 相 比 之 下 ， 内 存 很 大 且 拥 有 所 有 的 数 
据 ， 但 访问 速度 较 慢 。 通 过 将 频繁 访问 的 数据 放 在 缓存 中 ， 系 统 似乎 
拥有 叉 大 叉 快 的 内 存 。 


举 个 例子 ， 假 设 一 个 程序 需要 从 内 存 中 加 载 指令 并 读 取 一 个 值 ， 系 统 
只 有 一 个 CPU， 拥 有 较 小 的 缓存 (如 64KB〉 和 较 大 的 内 存 。 


程序 第 一 次 读 取 数据 时 ， 数 据 在 内 存 中 ， 因 此 需要 花费 较 长 的 时 间 
《可 能 数 十 或 数 百 纳 秒 ) 。 处 理 器 判断 该 数据 很 可 能 会 被 再 次 使 用 ， 
因此 将 其 放 入 CPU 缓存 中 。 如 果 之 后 程序 再 次 需要 使 用 同样 的 数据 ， 
CPU 会 先 查 找 缓存 。 因 为 在 缓存 中 找到 了 数据 ， 所 以 取 数 据 快 得 多 《〈 比 
如 儿 纳 秒 〉， 程 序 也 残 运行 更 快 。 





























缓存 是 基于 局 部 性 〈locality) 的 概念 ， 局 部 性 有 两 种 ， 即 时 间 局 部 
性 和 空间 局 部 性 。 时 间 局 部 性 是 指 当 一 个 数据 被 访问 后 ， 它 很 有 可 能 
会 在 不 久 的 将 来 被 再 次 访问 ， 比 如 循环 代码 中 的 数据 或 指令 本 身 。 而 
空间 局 部 性 指 的 是 ， 当 程序 访问 地 址 为 x 的 数据 时 ， 很 有 可 能 会 紧 接着 
访问 x 周 围 的 数据 ， 比 如 遍历 数组 或 指令 的 顺序 执行 。 由 于 这 两 种 局 部 
性 存在 于 大 多 数 的 程序 中 ， 硬 件 系统 可 以 很 好 地 预测 哪些 数据 可 以 放 
入 缓存 ， 从 而 运行 得 很 好 。 


有 趣 的 部 分 来 了 : 如 果 系 统 有 多 个 处 理 器 ， 并 共享 同一 个 内 存 ， 如 图 
10.2 所 示 ， 会 怎样 呢 ? 











图 10. 1 带 缓 存 的 单 CPU 




















图 10. 2 ”两 个 有 缓存 的 CPU 共享 内 存 


事实 证 明 ， 多 CPU 的 情况 下 缓存 要 复杂 得 多 。 例 如 ， 假 设 一 个 运行 在 
CPU 1 上 的 程序 从 内 存 地 址 A 读 取 数据 。 由 于 不 在 CPU 1 的 缓存 中 ， 所 以 
系统 直接 访问 内 存 ， 得 到 值 D。 程 序 然后 修改 了 地 址 A 处 的 值 ， 只 是 将 
它 的 缓存 更 新 为 新 值 2”。 将 数据 写 回 内 存 比 较 慢 ， 因 此 系统 (通常 ) 
会 稍 后 再 做 。 假 设 这 时 操作 系统 中 断 了 该 程序 的 运行 ， 并 将 其 交 给 CPU 
2， 重 新 读 取 地 址 A 的 数据 ， 由 于 CPU 2 的 缓存 中 并 没有 该 数据 ， 所 以 会 
直接 从 内 存 中 读 取 ， 得 到 了 旧 值 》)， 而 不 是 正确 的 值 2”。 上 哎呀! 


这 一 普遍 的 问题 称 为 缓存 一 致 性 〈cache coherence) 问题 ， 有 大 量 的 
研究 文献 描述 了 解决 这 个 问题 时 的 微妙 之 处 [SHW11] 。 这 里 我 们 会 略 过 
所 有 的 细节 ， 只 提 几 个 要 点 。 选 一 门 计 算 机 体系 结构 课 〈 或 3 门 ) ， 你 
可 以 了 解 更 多 。 























人 硬件 提供 了 这 个 问题 的 基本 解决 方案 : 通过 监控 内 存 访问 ， 硬 件 可 以 
保证 获得 正确 的 数据 ， 并 保证 共享 内 存 的 唯一 性 。 在 基于 总 线 的 系统 
中 ， 一 种 方式 是 使 用 总 线 军 探 (bus snooping) [683] 。 每 个 缓存 都 通 
过 监听 链接 所 有 绥 存 和 内 存 的 总 线 ， 来 发 现 内 存 访问 。 如 果 CPU 发 现 对 
它 放 在 缓存 中 的 数据 的 更 新 ， 会 作废 《〈invalidate) 本 地 副本 〈 从 绥 
存 中 移 除 ) ， 或 更 新 〈update) 它 〈《 修 改 为 新 值 ) 。 回 写 缓 存 ， 如 上 
面 提 到 的 ， 让 事情 更 复杂 〈 由 于 对 内 存 的 写 入 稍 后 才 会 看 到 ) ， 你 可 
以 想 想 基本 方案 如 何 工作 。 








10.2 别 筷 了 同步 





既然 缓存 已 经 做 了 这 么 多 工作 来 提供 一 致 性 ， 应 用 程序 (或 操作 系 
统 ) 还 需要 关心 共 孚 数据 的 访问 吗 ? 依然 需要 ! 本 书 第 2 部 分 关于 并 发 
的 描述 中 会 详细 介绍 。 虽 然 这 里 不 会 详细 讨论 ， 但 我 们 会 简单 介绍 
(或 复习 ) 下 其 基本 思路 (假设 你 熟悉 并 发 相关 内 容 〉。 


跨 CPU 访 问 〈( 尤 其 是 写 入 ) 共享 数据 或 数据 结构 时 ， 需 要 使 用 互 斥 原 语 
(比如 锁 ) ， 才 能 保证 正确 性 〈 其 他 方法 ， 如 使 用 无 锁 (lock-free) 
数据 结构 ， 很 复杂 ， 偶 尔 才 使 用 。 详 情 参 见 并 发 部 分 关于 死 锁 的 章 
节 ) 。 例 如 ， 假 设 多 CPU 并 发 访问 一 个 共享 队列 。 如 果 没 有 锁 ， 即 使 有 
底层 一 致 性 协议 ， 并 发 地 从 队列 增加 或 删除 元 素 ， 依 然 不 会 得 到 预期 
结果 。 需 要 用 锁 来 保证 数据 结构 状态 更 新 的 原子 性 。 


为 了 更 具体 ， 我 们 设想 这 样 的 代码 序列 ， 用 于 删除 共享 链表 的 一 个 元 
素 ， 如 图 10. 3 所 示 。 假 设 两 个 CPU 上 的 不 同 线程 同时 进入 这 个 函数 。 如 
果 线 程 1 执行 第 一 行 ， 会 将 head 的 当前 值 存 入 它 的 tmp 变 量 。 如 果 线 程 2 
接着 也 执行 第 一 行 ， 它 也 会 将 同样 的 head 值 存 入 它 自 己 的 私有 tmp 变 量 
Ctmp 在 栈 上 分 配 ， 因 此 每 个 线程 都 有 目 己 的 私有 存储 ) 。 因 此 ， 两 个 
线程 会 尝试 删除 同一 个 链表 头 ， 而 不 是 每 个 线程 移 除 一 个 元 素 ， 这 层 
《比如 在 第 4 行 重 复 释 放 头 元 素 ， 以 及 可 能 两 次 返回 同一 
上 数据 ) 。 











1 typedef struct Node 七 { 
2 int value; 

3 struct _ Node 七 *next; 
4 } Node t; 

5 


6 int List Pop() { 

7 Node t *tmp = head; // remember old head ... 

8 int value = head->value; // ... and its value 

9 head = head->next; // advance head to next pointer 
10 free (tmp); // free old head 

11 return value; // return value at head 











图 10.3 简单 的 链表 删除 代码 


当然 ， 让 这 类 函数 正确 工作 的 方法 是 加 锁 〈locking) 。 这 里 只 需要 一 
个 互 斥 锁 〈 即 pthread mutex t m; ) ， 然 后 在 函数 开始 时 调用 
lock (&m) ， 在 结束 时 调用 unlock(&m ， 确 保 代 人 码 的 执行 如 预期 。 我 们 
会 看 到 ， 这 里 依然 有 问题 ， 尤 其 是 性 能 方面 。 具 体 来 说 ， 随 着 CPU 数 量 
的 增加 ， 访 问 同步 共享 的 数据 结构 会 变 得 很 慢 。 


10.3 最 后 一 个 问题 : 缓存 亲 和 度 


在 设计 多 处 理 器 调度 时 遇 到 的 最 后 一 个 问题 ， 是 所 谓 的 缓存 杀 和 度 
(cache affinity) 。 这 个 概念 很 简单 : 一 个 进程 在 某 个 CPU 上 运行 
时 ， 会 在 该 CPU 的 缓存 中 维护 许多 状态 。 下 次 该 进程 在 相同 CPU 上 运行 
时 ， 由 于 缓存 中 的 数据 而 执行 得 更 快 。 相 反 ， 在 不 同 的 CPU 上 执行 ， 会 
由 于 需要 重新 加 载 数据 而 很 慢 〈 好 在 硬件 保证 的 缓存 一 致 性 可 以 保证 
正确 执行 )。 因 此 多 处 理 器 调度 应 该 考虑 到 这 种 缓存 杀 和 性 ， 并 尽 可 
能 将 进程 保持 在 同一 个 CPU 上 。 











10.4 单 队列 调度 


上 面 介 绍 了 一 些 背景 ， 现 在 来 讨论 如 何 设计 一 个 多 处 理 器 系统 的 调度 
程序 。 最 基本 的 方式 是 简单 地 复 用 单 处 理 器 调度 的 基本 架构 ， 将 所 有 
需要 调度 的 工作 放 入 一 个 单独 的 队列 中 ， 我 们 称 之 为 单 队 列 多 处 理 器 
调度 (Single Queue Multiprocessor Scheduling，SQMS ) 。 这 个 方 
法 最 大 的 优点 是 简单 。 它 不 需要 太 多 修改 ， 就 可 以 将 原 有 的 策略 用 于 








多 个 CPU， 选 择 最 适合 的 工作 来 运行 “例如 ， 如 果 有 两 个 CPU， 它 可 能 
选择 两 个 最 合适 的 工作 ) 。 


然而 ，SQMS 有 几 个 明显 的 短 板 。 第 一 个 是 缺乏 可 扩展 性 
(scalability) 。 为 了 保证 在 多 CPU 上 正常 运行 ， 调 度 程序 的 开发 者 
需要 在 代码 中 通过 加 锁 (locking) 来 保证 原子 性 ， 如 上 所 述 。 在 SQMS 
pe 








然而 ， 锁 可 能 带 来 巨大 的 性 能 损失 ， 尤 其 是 随 着 系统 中 的 CPU 数 增加 时 
[A91] 。 随 着 这 种 单个 锁 的 争 用 增加 ， 系 统 花 费 了 越 来 越 多 的 时 间 在 钞 
的 开销 上 ， 较 少 的 时 间 用 于 系统 应 该 完成 的 工作 〈 哪 天 在 这 里 加 上 真 
正 的 测量 数据 就 好 了 ) 。 


SQMS 的 第 二 个 主要 问题 是 缓存 亲 和 性 。 比 如 ， 假 设 我 们 有 5 个 工作 
(A、B、C、D、E) 和 4 个 处 理 器 。 调 度 队 列 如 下 : 





队列 一 mA 一 *B 一 (一 上 了 一 站 一 上 NULL 


一 段 时 间 后 ， 假 设 每 个 工作 依次 执行 一 个 时 间 片 ， 然 后 选择 另 一 个 工 
作 ， 下 面 是 每 个 CPU 可 能 的 调度 序列 : 





由 于 每 个 CPU 都 简单 地 从 全 局 共享 的 队列 中 选取 下 一 个 工作 执行 ， 因 此 
每 个 工作 都 不 断 在 不 同 CPU 之 间 转 移 ， 这 与 缓存 杀 和 的 目标 背道而驰 。 


为 了 解决 这 个 问题 ， 大 多 数 SQMS 调 度 程序 都 引入 了 一 些 亲 和 度 机 制 ， 
尽 可 能 让 进程 在 同一 个 CPU 上 运行 。 保 持 一 些 工 作 的 杀 和 度 的 同时 ， 可 
能 需要 牺牲 其 他 工作 的 亲 和 度 来 实现 负载 均衡 。 例 如 ， 针 对 同样 的 5 个 
工作 的 调度 如 下 : 





这 种 调度 中 ，A、B、C、D 这 4 个 工作 都 保持 在 同一 个 CPU 上 ， 只 有 工作 
E 不 断 地 来 回迁 移 (migrating) ， 从 而 尽 可 能 多 地 获得 缓存 亲 和 度 。 
为 了 公平 起 见 ， 之 后 我 们 可 以 选择 不 同 的 工作 来 迁移 。 但 实现 这 种 集 
略 可 能 很 复杂 。 


我 们 看 到 ，SQMS 调 度 方式 有 优势 也 有 不 足 。 优 势 是 能 够 从 单 CPU 调 度 程 
序 很 简单 地 发 展 而 来 ， 根 据 定义 ， 它 只 有 一 个 队列 。 然 而 ， 它 的 扩展 
性 不 好 《由 于 同步 开销 有 限 ) ， 并 且 不 能 很 好 地 保证 缓存 亲 和 度 。 











10.5 多 队列 调度 


正 是 由 于 单 队列 调度 程序 的 这 些 问 题 ， 有 些 系 统 使 用 了 多 队列 的 方 
案 ， 比 如 每 个 CPU 一 个 队列 。 我 们 称 之 为 多 队列 多 处 理 器 调度 Multi- 
Queue Multiprocessor Scheduling, MQMS) 


在 MQMS 中 ， 基 本 调度 框架 包含 多 个 调度 队列 ， 每 个 队列 可 以 使 用 不 同 
的 调度 规则 ， 比 如 轮转 或 其 他 任何 可 能 的 算法 。 当 一 个 工作 进入 系统 
后 ， 系 统 会 依照 一 些 启发 性 规则 《如 随机 或 选择 较 空 的 队列 ) 将 其 放 


入 某 个 调度 队列 。 这 样 一 来 ， 每 个 CPU 调度 之 间 相 互 独立 ， 就 避免 了 单 
队列 的 方式 中 由 于 数据 共享 及 同步 带 来 的 问题 。 


例如 ， 假 设 系统 中 有 两 个 CPU (CPU 0 和 CPU 1) 。 这 时 一 些 工 作 进 入 系 
统 : A、B、C 和 D。 由 于 每 个 CPU 都 有 自己 的 调度 队列 ， 操 作 系 统 需要 决 
定 每 个 工作 放 入 哪个 队列 。 可 能 像 下 面 这 样 做 : 


0Q0—> A 一 【〔 OlI—» B 一 


根据 不 同 队列 的 调度 策略 ， ee 决定 谁 将 运 
行 。 例 如 ， 利 用 轮转 ， 调 度 结果 可 能 如 下 所 示 : 


"oN 
"TT 面 | 面 | 面 


MQMS 比 SQMS 有 明显 的 优势 ， 它 天 生 更 具有 可 扩展 性 。 队 列 的 数量 会 

着 CPU 的 增加 而 增加 ， 因 此 锁 和 缓存 争 用 的 开销 不 是 大 问题 。 此 生 ， 
MQMS 天 生 具 有 良好 的 缓存 亲 和 度 。 所 有 工作 都 保持 在 固定 的 CPU 上 ， 
而 可 以 很 好 地 利用 缓存 数据 。 


但 是 ， 如 果 稍 加 注意 ， 你 可 能 会 发 现 有 一 个 新 问题 (这 在 多 队列 的 方 
法 中 是 根本 的 ) ， 即 负载 不 均 (load imbalance) 。 假定 和 上 面 设 定 
一样 民 人 作 20CEU2 但 假设 二 个 下 作 (如 C) j 这 时 执行 完毕 。 
现在 调度 队列 如 下 : 








QU 一 A WU 一 BRB 一 上 


如 果 对 系统 中 每 个 队列 都 执行 轮转 调度 策略 ， 会 获得 如 下 调度 结果 : 





加 本 本 ,本 | 
从 图 中 可 以 看 出 ，A 获 得 了 B 和 D 两 倍 的 CPU 时 间 ， 是 期 望 的 结 


de 假设 A 和 C 都 执行 完毕 ， 系 统 中 只 人 调度 队列 看 起 用 
[下 


QU 一 上 UL 一 日 一 二 站 


因此 CPU 使 用 时 间 线 看 起 来 令 人 难过 : 
CPU 


"Ems 


所 以 可 怜 的 多 队列 多 处 理 恬 调度 程序 应 该 怎么 办 昵 ?怎样 才 自 BE 克服 潜 
伏 的 负载 不 均 问 题 ， ele … 霸 天 虎 军团 ”? 如 何 才能 不 要 问 这 
些 与 这 本 好 书 几乎 无 关 的 问题 


关键 问题 :如何 应对 负载 不 均 


多 队列 多 处 理 器 调度 程序 应 该 如 何 处 理 负 载 不 均 问 题 ， 从 而 
更 好 地 实现 预期 的 调度 目标 ? 


最 明显 的 答案 是 让 工作 移动 ， 这 种 技术 我 们 称 为 迁移 (migration) 。 
通过 工作 的 路 CPU 迁移 ， 可 以 真正 实现 负载 均衡 。 


人 
工作 。 





QU 一 UL 一 B 一 二 站 


在 这 种 情况 下 ， 期 望 的 迁移 很 容易 理解 : 操作 系统 应 该 将 B 或 D 迁 移 到 
CPU0。 这 次 工作 迁移 导致 负载 均衡 ， 缘 大 欢喜 。 


更 棘手 的 情况 是 较 早 一 些 的 例子 ，A 独 自 留 在 CPU 0 上 ，B 和 D 在 CPU 1 上 


全 


交替 运行 。 





QU 一 A UL 一 日 一 上 了 


在 这 种 情况 下 ， 单 次 迁移 并 不 能 解雇 问题 。 应 该 怎么 做 昵 ? 答案 是 不 
断 地 迁移 一 个 或 多 个 工作 。 一 种 可 能 的 解决 方案 是 不 断 切换 工作 ， 如 
下 面 的 时 间 线 所 示 。 可 以 看 到 ， 开 始 的 时 候 A 独 享 CPU 0，B 和 D 在 CPU 
1。 一 些 时 间 片 后 ，B 迁 移 到 CPU 0 与 A 竞 争 ，D 则 独 享 CPU 1 一 段 时 间 。 
这 样 就 实现 了 负载 均衡 。 


CPUI 


"aE BD ,加 


当然 ， 还 有 其 他 不 同 的 迁移 模式 。 但 现在 是 最 环 手 的 部 分 : 系统 如 何 
决定 发 起 这 样 的 迁移 ? 











一 个 基本 的 方法 是 采用 一 种 技术 ， 名 为 工作 销 取 (work stealing ) 
[FLR98] 。 通 过 这 种 方法 ， 工 作 量 较 少 的 ( 源 ) 队列 不 定期 地 “ 偷 看 ” 
其 他 (目标 队列 是 不 是 比 自己 的 工作 多 。 如 果 目 标 队 列 比 源 队 列 
I 
习 衡 。 


当然 ， 这 种 方法 也 有 让 人 抓 狂 的 地 方 一 一 如 果 太 频繁 地 检查 其 他 队 
列 ， 就 会 带 来 较 高 的 开销 ， 可 扩展 性 不 好 ， 而 这 是 多 队列 调度 最 初 的 
全 部 目标 ! 相反 ， 如 果 检 查 间隔 太 长 ， 又 可 能 会 带 来 严重 的 负载 不 
均 。 找 到 合适 的 国 值 仍然 是 黑 魔 法 ， 这 在 系统 策略 设计 中 很 音 见 。 








10.6 Linux 多 处 理 器 调度 


有 趣 的 是 ， 在 构建 多 处 理 器 调度 程序 方面 ，Linux 社 区 一 直 没 有 达成 共 
识 。 一 直 以 来 ， 存 在 3 种 不 同 的 调度 程序 : 0(1) 调度 程序 、 完 全 公平 调 
度 程序 (CFS) 以 及 BF 调度 程序 (BFS) “。 从 Meehean 的 论文 中 可 以 找 
I 
基本 知识 。 


0(1) CFS 采 用 多 队列 ， 而 BFS 采 用 单 队列 ， 这 说 明 两 种 方法 都 可 以 成 
功 。 当 然 它们 之 间 还 有 很 多 不 同 的 细节 。 例 如 ，0(1) 调度 程序 是 基于 
优先 级 的 (类 似 于 之 前 介绍 的 MLFQ) ， 随 时 间 推 移 改变 进程 的 优先 
级 ， 然 后 调度 最 高 优先 级 进程 ， 来 实现 各 种 调度 目标 。 交 互 性 得 到 了 
特别 关注 。 与 之 不 同 ，CFS 是 确定 的 比例 调度 方法 (类 似 之 前 介绍 的 步 
长 调度 ) 。BFS 作 为 三 个 算法 中 唯一 采用 单 队列 的 算法 ， 也 基于 比例 调 
度 ， 但 采用 了 更 复杂 的 方案 ， 称 为 最 早 最 合适 虚拟 截止 时 间 优 先 算 法 
CEEVEF) [SA96] 读 者 可 以 自己 去 了 解 这 些 现代 操作 系统 的 调度 算法 ， 
现在 应 该 能 够 理解 它们 的 工作 原理 了 ! 



































10.7 小 结 


本 章 介 绍 了 多 处 理 器 调度 的 不 同方 法 。 其 中 单 队列 的 方式 (SQMS) 比 
较 容 易 构 建 ， 负 载 均 衡 较 好 ， 但 在 扩展 性 和 缓存 亲 和 度 方面 有 着 固有 
的 人 缺陷。 多 队列 的 方式 〈MQMS) 有 很 好 的 扩展 性 和 缓存 杀 和 度 ， 但 实 
现 负载 均衡 却 很 困难 ， 也 更 复杂 。 无 论 采 用 哪 种 方式 ， 都 没有 简单 的 
答案 : 构建 一 个 通用 的 调度 程序 仍 是 一 项 令 人 生 革 的 任务 ， 因 为 即使 
很 小 的 代码 变动 ， 也 有 可 能 导致 巨大 的 行为 差异 。 除 非 很 清楚 自己 在 
做 什么 ， 或 者 有 人 付 你 很 多 钱 ， 和 否则 别 干 这 种 事 。 
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致 性 协议 的 开创 性 论文 。Goodman 在 威斯康星 的 多 年 研究 工作 充满 了 智 


正 ， 这 只 是 一 个 例子 。 
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一 篇 涵盖 了 现代 Linux 多 处 理 器 调度 如 何 工作 的 许多 细节 的 论文 。 非 党 
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内 存 一 致 性 和 多 处 理 器 缓存 的 权威 概述 。 对 于 喜欢 对 该 主题 深入 了 解 
的 人 来 说 ， 这 是 必 读 物 。 





[SA96] “Earliest Eligible Virtual Deadline First: A Flexible 
and Accurate Mechanism for Pro- portional Share Resource 
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Ion Stoica and Hussein Abdel-Wahab 
Technical Report TR-95-22，01d Dominion University, 1996 
来 和 目 Ion Stoica 的 一 份 技术 报告 ， 其 中 介绍 了 很 酷 的 调度 思想 。 他 现 


在 是 U. C. 伯克利 大 学 的 教授 ， 也 是 网 络 、 分 布 式 系 统 和 其 他 许多 方面 
的 世界 级 专家 。 


[一 个 鲜 为 人 知 的 事实 是 ， 变 形 金刚 的 家 乡 塞 伯 坦 星球 被 糟糕 的 
CPU 调度 决策 所 摧毁 。 


[2]， 上 自己 去 查 BF 代 表 什 么 。 预 先 和 警告 ， 小 心脏 可 能 受 不 了 。 


第 11 章 “关于 CPU 虚拟 化 的 总 结对 话 


教授 : 那么 ， 同 学 ， 你 学 到 了 什么 ? 


学 生 : 教授 ， 这 似乎 是 一 个 既定 答案 的 问题 。 我 想 你 只 想 让 我 说 “是 
的 ， 我 学 到 了 ”。 


教授 确实。 但 这 也 还 是 一 个 诚实 的 问题 。 来 吧 ， 让 教授 休息 一 下 ， 
了 吗 ? 


学 生 : 好 的 ， 好 的 。 我 想 我 确实 学 到 了 一 些 知识 。 首 先 ， 我 了 解 了 操 
作 系 统 如 何 虚 拟 化 CPU。 为 了 理解 这 一 点 ， 我 必须 了 解 一 些 重 要 的 机 制 
(mechanism) : 陷阱 和 陷阱 处 理 程序 ， 时 钟 中 断 以 及 操作 系统 和 硬件 
在 进程 间 切 换 时 如 何 谨慎 地 保存 和 恢复 状态 。 


教授 : 很 好 ， 很 好 ! 


学 生 : 虽然 所 有 这 些 交 互 似乎 有 点 复杂 ， 但 我 怎样 才能 学 到 更 多 的 内 
容 ? 


教授 : 好 的 ， 这 是 一 个 很 好 的 问题 。 我 认为 没有 办 法 可 以 蔡 代 动手 。 
仅 阅 读 这 些 内 容 并 不 能 给 你 正确 的 理解 。 做 课堂 项 目 ， 我 敢 保 证 ， 它 
会 对 你 有 所 帮助 。 


学 生 : 听 起 来 不 错 。 我 还 能 告诉 你 什么 ? 


教授 : 那么 ， 你 在 寻求 理解 操作 系统 的 基本 机 制 时 ， 是 否 了 解 了 操作 
系统 的 哲学 ? 


学 生 : 咽 …… 我 想 是 的 。 似 乎 操作 系统 相当 偏执 。 它 希望 确保 控制 机 
器。 虽然 它 希 望 程序 能 够 尽 可 能 高 效 地 运行 [因此 也 是 受 限 直接 执行 
(limited direct execution) 背后 的 全 部 逻辑 ]， 但 操作 系统 也 和 希望 
能 够 对 错误 或 恶意 的 程序 说 “ 啊 ! 别 那么 快 ， 我 的 朋友 ”。 偏 执 狂 全 
天 控制 ， 并 且 确 保 操 作 系 统 控 制 机 器 。 也 许 这 就 是 我 们 将 操作 系统 视 
为 资源 管理 器 的 原因 。 














教授 ， 是 的 ， 听 起 来 你 开始 融会 贯通 了 ! 干 得 漂亮 ! 
学 生 ， 谢谢。 
教授 ， 那 些 机 制 之 上 的 策略 呢 ? 有 什么 有 趣 的 经 验 吗 ? 


学 生 : 当然 能 从 中 学 到 一 些 经 验 。 也 许 有 点 明显 ， 但 明显 也 可 以 是 很 
好 。 比 如 将 短工 作 提升 到 队列 前 面 的 想法 : 自从 有 一 次 我 在 商店 买 一 
些 口香糖 ， 我 就 知道 这 是 一 个 好 主意 ， 而 且 我 面前 的 那个 人 有 一 张 无 
法 文 付 的 信用 卡 。 我 要 说 的 是 ， 他 不 是 “短工 作 ”。 


教授 : 这 听 起 来 对 那个 可 怜 的 家 伙 有 点 过 分 。 还 有 什么 吗 ? 


学 生 : 好 吧 ， 你 可 以 建立 一 个 聪明 的 调度 程序 ， 试 图 既 像 SJF 又 像 RR 
一 一 MLFQ 相 当 漂 亮 。 构 建 真 正 的 调度 程序 似乎 很 难 。 


教授 : 的 确 如 此 。 这 就 是 对 使 用 哪个 调度 程序 至 今 仍 有 争议 的 原因 。 
例如 ， 请 参阅 CFS、BFS 和 0 〈1) 调度 程序 之 间 的 Linux 战 斗 。 不 ， 我 不 
会 说 出 BFS 的 全 名 。 


学 生 : 我 不 会 要 求 你 说 ! 这 些 策 略 战争 看 起 来 好 像 可 以 永远 持续 下 
去 ， 真 的 有 一 个 正确 的 答案 吗 ? 


教授 :可 能 没有 。 毕 竟 ， 即 使 我 们 自己 的 度量 指标 也 不 一 致 。 如 果 你 
的 调度 程序 周转 时 间 好 ， 那 么 在 啊 应 时 间 就 会 很 糟 烷 ， 反 之 亦 然 。 正 
0 
难 。 


学 生 : 这 有 点 令 人 沁 形 。 


教授 : 好 的 工程 可 以 这 样 。 它 也 可 以 令 人 振奋 ! 这 只 是 你 的 观点 ， 真 
的 。 我 个 人 认为 ,务实 是 一 件 好 事 ， 实 用 主义 者 意识 到 并 非 所 有 问题 
都 有 简洁 明了 的 解决 方案 。 你 还 喜欢 什么 ? 


学 生 : 我 非常 喜欢 操控 调度 程序 的 概念 。 我 下 次 在 亚马逊 的 EC2 服 务 上 
运行 一 项 工作 时 ， 看 起 来 这 可 能 是 需要 考虑 的 事情 。 也 许 我 可 以 从 其 
他 一 些 毫 无 戒心 的 《更 重要 的 是 ， 对 操作 系统 一 无 所 知 的 ) 客户 那里 
锁 取 一 些 时 间 周 期 ! 
































教授 : 看 起 来 我 可 能 创造 了 一 个 “怪物 ”! 你 知道 ， 我 可 不 想 被 人 称 
为 弗 兰 肯 斯 坦 教 授 。 


学 生 : 但 你 不 就 是 这 样 想 的 吗 ? 让 我 们 对 某 件 事 感 到 兴奋 ， 这 样 我 们 
就 会 自己 对 它 进行 研究 ? 点 燃 火 ， 仅 此 而 已 ? 


教授 ; 我 想 是 的 。 但 我 不 认为 这 会 成 功 ! 











第 12 章 ”关于 内 存 虚 拟 化 的 对 话 


学 生 : 那么 ， 虚 拟 化 讲 完 了 吗 ? 
教授 : 没有 ! 


学 生 : 嘿 ， 没 理由 这 么 激动 ， 我 只 是 在 问 一 个 问题 。 学 生 就 应 该 问 问 
日 而 2 
题 ， 对 吧 ? 


教授 : 好 吧 ， 教 授 们 总 是 这 样 说 ， 但 实际 上 他 们 的 意思 : 提出 问题 ， 
仅 当 它们 是 好 问题 ， 而 且 你 实际 上 已 经 对 这 些 问题 进行 了 一 些 思考 。 


学 生 : 好 吧 ， 那 肯定 会 让 我 失去 动力 。 


教授 ; 我 得 从 了 。 不 管 怎么 说 ， 我 们 离 讲 完 虚拟 化 还 有 一 段 时 间 ! 相 
反 ， 你 刚 看 到 了 如 何 虚拟 化 CPU， 但 是 真 的 有 一 个 巨大 的 “怪物 ”一 一 
内 存在 壁橱 里 等 着 你 。 虚 拟 内 存 很 复杂 ， 需 要 我 们 理解 关于 硬件 和 操 
作 系 统 交 互 方式 的 更 多 复杂 细节 。 


学 生 : 听 起 来 很 酷 。 为 什么 这 很 难 ? 


教授 : 好 吧 ， 有 很 多 细节 ， 你 必须 牢记 它们 ， 才 能 真正 对 发 生 的 事情 
建立 一 个 思维 模型 。 我 们 将 从 简单 的 开始 ， 使 用 诸如 基 址 /界限 等 非常 
基本 的 技术 ， 并 慢 慢 增加 复杂 性 以 应 对 新 的 挑战 ， 包 括 有 趣 的 主题 ， 
如 TLB 和 多 级 页 表 。 最 终 ， 我 们 将 能 够 描述 一 个 全 功能 的 现代 虚拟 内 存 
管理 程序 的 工作 原理 。 


学 生 : 漂亮 ! 对 我 这 个 可 怜 的 学 生 有 什么 提示 吗 ? 会 被 这 些 信息 淹 
没 ， 并 且 一 般 都 会 睡眠 不 足 ? 


教授 : 对 于 睡眠 不 足 的 人 来 说 ， 这 很 简单 : 多 睡 一 会 儿 ( 少 一 点 派 
对 ) 。 对 于 理解 虚拟 内 存 ， 从 这 里 开始 : 用 户 程序 生成 的 每 个 地 址 都 
是 虚拟 地 址 (every address generated by a user program is a 
virtual address) 。 操 作 系 统 只 是 为 每 个 进程 提供 一 个 假象 ， 具 体 来 
说 ， 就 是 它 拥 有 自己 的 大 量 私 有 内 存 。 在 一 些 硬件 帮助 下 ， 操 作 系 统 




















会 将 这 些 假 的 庶 拟 地 址 变 成 真实 的 物理 地 址 ， 从 而 能 够 找到 想 要 的 信 





学 生 : 好 的 ， 我 想 我 可 以 记 住 …… 〈 自 言 自 语 ) 用 户 程 序 中 的 每 个 地 
0 用 户 程 序 中 的 每 个 地 址 都 是 虚拟 的 ， 每 个 地 址 都 





教授 : 你 在 嘟 嘻 什 么 ? 


学 生 : 哦 3 没什么 wri 《 揽 雁 的 集 顿 〉…… 但 是 ， 操 作 系 统 为 什么 又 
要 提供 这 种 假象 ? 


教授 : 主要 是 为 了 易于 使 用 (ease of use) 。 操 作 系 统 会 让 每 个 程序 
觉得 ， 它 有 一 个 很 大 的 连续 地 址 空间 (address space) 来 放 入 其 代码 
和 数据 。 因 此 ， 作 为 一 名 程序 员 ， 您 不 必 担 心 诸如 “我 应 该 在 哪里 存 
储 这 个 变量 ? ”这 样 的 事情 ， 因 为 程序 的 虚拟 地 址 空间 很 大 ， 有 很 多 
空间 可 以 存 代 码 和 数据 。 对 于 程序 员 来 说 ， 如 果 必 须 操心 将 所 有 的 代 
码 数据 放 入 一 个 小 而 拥挤 的 内 存 ， 那 么 生活 会 变 得 痛苦 得 多 。 


学 生 : 为 什么 呢 ? 


教授 : 好 吧 ， 隔 离 (isolation) 和 保护 (protection) 也 是 大 事 。 我 
们 不 希望 一 个 错误 的 程序 能 够 读 取 或 者 覆 写 其 他 程序 的 内 存 ， 对 吗 ? 


学 生 : 可 能 不 希望 。 除 非 它 是 由 你 不 喜欢 的 人 编写 的 程序 。 


授 : 喝 …… 我 想 可 能 需要 在 下 个 学 期 为 你 安排 一 门道 德 与 伦理 课 
程 。 也 许 操作 系统 课程 没有 传递 正确 的 信息 。 


学 生 : 也 许 应 该 。 但 请 记 住 ， 不 是 我 对 大 家 说 ， 对 于 错误 的 进程 行 
为 ， 正 确 的 操作 系统 反应 是 要 “ 杀 死 ”违规 进程 ! 























第 13 章 ”抽象 : 地址 空间 


早期 ， 构 建 计算 机 操作 系统 非常 简单 。 你 可 能 会 问 ， 为 什么 ? 因为 用 
户 对 操作 系统 的 期 望 不 高 。 然 而 一 些 烦人 的 用 户 提出 要 “易于 使 用 ” 
“高 性 能 ”“ 可 靠 性 ”等 ， 这 导致 了 所 有 这 些 令 人 头痛 的 问题 。 下 次 
你 见 到 这 些 用 户 的 时 候 ， 应 该 感谢 他 们 ， 他 们 是 这 些 问题 的 根源 。 


13.1 早期 系统 


从 内 存 来 看 ， 早 期 的 机 器 并 没有 提供 多 少 抽象 给 用 户 。 基 本 上 ， 机 器 
的 物理 内 存 看 起 来 如 图 13. 1 所 示 。 


OKB 


探 作 系统 
(代码 、 数 据 等 ) 


dKB 


当 且 程序 
(人 代码、 数据 等) 





ITld™ 
图 13. 1 操作 系统 早期 


操作 系统 曾经 是 一 组 函数 (实际 上 是 一 个 库 ) ， 在 内 存 中 《在 本 例 
中 ， 从 物理 地 址 0 开始 ) ， 然 后 有 一 个 正在 运行 的 程序 (进程 》， 目 前 
在 物理 内 存 中 《在 本 例 中 ， 从 物理 地 址 64KB 开 始 ) ， 并 使 用 剩余 的 内 
存 。 这 里 几乎 没有 抽象 ， 用 户 对 操作 系统 的 要 求 也 不 多 。 那 时 候 ， 操 
作 系 统 开发 人 员 的 生活 确实 很 容易 ， 不 是 吗 ? 








13.2 多 道 程序 和 时 分 共享 





过 了 一 段 时 间 ， 由 于 机 器 昂贵 ， 人 们 开始 更 有 效 地 共享 机 器 。 因 此 ， 
多 道 程 序 (multiprogramming) 系统 时 代 开 启 [DYV66] ， 其 中 多 个 进程 
在 给 定时 间 准 备 运 行 ， 比 如 当 有 一 个 进程 在 等 待 1/0 操 作 的 时 候 ， 操 作 
系统 会 切换 这 些 进程 ， 这 样 增 加 了 CPU 的 有 效 利 用 率 
Cutilization) 。 那 时 候 ， 效 率 (efficiency) 的 提高 尤其 重要 ， 
为 每 台 机 器 的 成 本 是 数 十 万 美元 甚至 数 百 万 美元 〈 现 在 你 觉得 你 的 Mac 


很 贯 ! ) 


但 很 快 ， 人 们 开始 对 机 器 要 求 更 多 ， 分 时 系统 的 时 代 诞 生 了 [S59， 

L60，M62，M83] 。 有 具体 来 说 ， 许 多 人 意识 到 批量 计算 的 局 限 性 ， 尤 其 
是 程序 员 本 身 [CV65] ， 他 们 厌倦 了 长 时 间 的 《因此 也 是 低 效 率 的 ) 编 
程 一 调试 循环 。 交 互 性 (interactivity) 变 得 很 重要 ， 因 为 许多 用 户 
和 每 个 人 都 在 等 待 《〈 或 希望 ) 他 们 执行 的 任务 及 
时 吧 旋 。 


一 种 实现 时 分 共享 的 方法 ， 是 让 一 个 进程 单独 占用 全 部 内 存 运行 一 小 
段 时 间 〈 见 图 13. 1) ， 然 后 停止 它 ， 并 将 它 所 有 的 状态 信息 保存 在 磁 
盘 上 《包含 所 有 的 物理 内 存 ) ， 加 载 其 他 进程 的 状态 信息 ， 再 运行 一 
段 时 间 ， 这 就 实现 了 某 种 比较 粗糙 的 机 器 共享 [M+63] 。 


遗憾 的 是 ， 这 种 方法 有 一 个 问题 : 太 慢 了 ， 特 别 是 当 内 存 增长 的 时 
候 。 虽 然 保存 和 恢复 寄存 器 级 的 状态 信息 程序 计数 器 、 通 用 寄存 器 
等 ) 相对 较 快 ， 但 将 全 部 的 内 存 信息 保存 到 磁盘 就 太 慢 了 。 因 此 ， 在 
进程 切换 的 时 候 ， 我 们 仍然 将 进程 信息 放 在 内 存 中 ， 这 样 操作 系统 可 
以 更 有 效率 地 实现 时 分 共享 ( 见 图 13. 2) 。 
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图 13. 2 ”3 个 进程 : 共享 内 存 


在 图 13. 2 中 ， 有 3 个 进程 (A、B、C) ， 每 个 进程 拥有 从 512KB 物 理 内 存 
中 切 出 来 给 它们 的 一 小 部 分 内 存 。 假 定 只 有 一 个 CPU， 操 作 系 统 选择 运 
行 其 中 一 个 进程 〈 比 如 A) ， 同 时 其 他 进程 (B 和 C)〉 则 在 队列 中 等 待 运 
行 。 











随 着 时 分 共享 变 得 更 流行 ， 人 们 对 操作 系统 又 有 了 新 的 要 求 。 特 别 是 
多 个 程序 同时 驻 留 在 内 存 中 ， 使 保护 (protection) 成 为 重要 问题 。 
人 们 不 希望 一 个 进程 可 以 读 取 其 他 进程 的 内 存 ， 更 别 说 修改 了 。 


13.3 ”地址 空间 


然而 ， 我 们 必须 将 这 些 烦人 的 用 户 的 需求 放 在 心 上 。 因 此 操作 系统 需 
要 提供 一 个 易 用 (easy to use) 的 物理 内 存 抽象 。 这 个 抽象 叫 作 地 址 
空间 (address space) ， 是 运行 的 程序 看 到 的 系统 中 的 内 存 。 理 解 这 
个 基本 的 操作 系统 内 存 抽象 ， 是 了 解 内 存 虚拟 化 的 关键 。 


一 个 进程 的 地 址 空间 包含 运行 的 程序 的 所 有 内 存 状态 。 比 如 : 程序 的 
代码 (code， 指 令 ) 必须 在 内 存 中 ， 因 此 它们 在 地 址 空间 里 。 当 程序 
在 运行 的 时 候 ， 利 用 栈 (stack) 来 保存 当前 的 函数 调用 信息 ， 分 配 空 
间 给 局 部 变量 ， 传 递 参数 和 函数 返回 值 。 最 后 ， 堆 Cheap) 用 于 管理 
动态 分 配 的 、 用 户 管理 的 内 存 ， 就 像 你 从 C 语 言 中 调用 malloc () 或 面向 
对 象 语言 《如 C ++ 或 Java) 中 调用 new 获得 内 存 。 当 然 ， 还 有 其 他 的 
东西 (例如 ， 静 太初 给 化 的 变 重 》， 但 现在 公设 只 有 这 3 个 部 分 ， 人 
码 、 栈 和 堆 。 


在 图 13. 3 的 例子 中 ， 我 们 有 一 个 很 小 的 地 址 空间 已 :〈 只 有 16KB) 。 程 
序 代 码 位 于 地 址 空间 的 顶部 (在 本 例 中 从 0 开始 ， 并 且 浴 入 到 地 址 空间 
的 前 1KB〉。 代 码 是 静态 的 (因此 很 容易 放 在 内 存 中 )〉 ， 所 以 可 以 将 它 
放 在 地 址 空间 的 顶部 ， 我 们 知道 程序 运行 时 不 再 需要 新 的 空间 。 




















OKB 

程序 代码 | 代码 段 : 指令 所 在 的 位 置 
~ 堆 段 : 包括 malloc 分 配 的 数据 ， 
2KB 动态 数据 结构 〈 它 向 下 增长 ) 


( 它 向 上 增长 ) 楼 段 : 包含 
局 部 变量 、 图 数 的 参数 、 退 
回 值 等 


I3KB 





lI6KB 


图 13.3 地址 空间 的 例子 





接 下 来 ， 在 程序 运行 时 ， 地 址 空间 有 两 个 区 域 可 能 增长 (或 者 收 
缩 ) 。 它 们 就 是 堆 《〈 在 顶部 ) 和 栈 〈 在 底部 ) 。 把 它们 放 在 那里 ， 是 
因为 它们 都 希望 E 够 增长 。 通过 将 它们 放 在 地 址 空间 的 两 端 ， 我 们 可 
以 允许 这 样 的 增长 : 它们 只 需要 在 相反 的 方 癌 增长 。 因 此 堆 在 代码 
(1KB) 之 下 开始 并 同 下 增长 〈( 当 用 户 通 过 malloc 0 请求 更 多 内 存 
时 ) ， 栈 从 16KB 开 始 并 同上 增长 0 然而 ， 
堆栈 和 推 的 这 种 放置 方法 员 4 是 一 种 约定 ， 如 果 你 愿 意 ， 可 以 用 不 同 的 
方式 安排 地 址 空间 [ 稍 后 我 们 会 看 到 ， 当 多 个 线程 CE 在 地 址 
空间 中 共存 时 ， 就 没有 像 这 样 分 配 空 间 的 好 办 法 了 ] 。 


当然 ， 当 我 们 描述 地 址 空间 时 ， 所 描述 的 是 操作 系统 提供 给 运行 程序 
的 抽象 (abstract ) 。 程 序 不 在 物理 地 址 0 一 16KB 的 内 存 中 ， 而 是 加 载 
在 任意 的 物理 地 址 。 回 顾 图 13. 2 中 的 进程 A、B 和 C， 你 可 以 看 到 每 个 进 
程 如 何 加 载 到 内 存 中 的 不 同 地 址 。 因 此 问题 来 了 : 


关键 问题 : 如 何 虚拟 化 内 存 


操作 系统 如 何在 单一 的 物理 内 存 上 为 多 个 运行 的 进程 (所 有 
共享 内 存 ) 构建 一 个 私有 的 、 可 能 很 大 的 地 址 空间 的 抽 


当 操 作 系统 这 样 做 时 ， 我 们 说 操作 系统 在 虚拟 化 内 存 (virtualizing 
memory) ， 因 为 运行 的 程序 认为 它 被 加 载 到 特定 地 址 (例如 0〉 的 内 存 
并 且 具 有 非常 大 的 地 址 空 Es 间 《例如 32 位 或 64 位 ，。 现 实 很 不 一 


例如 ， 当 图 13.2 中 的 进程 A 尝试 在 地 址 0 (我 们 将 称 其 为 虚拟 地 址 ， 
virtual address) 执行 加 载 操作 时 ， 然 而 操作 系统 在 硬件 的 文 持 下 ， 
出 于 某 种 原因 ， 必 须 确保 不 是 加 载 到 物理 地 址 0， 而 是 物理 地 址 
320KB 〈 这 是 A 载 入 内 存 的 地 址 ) 。 这 是 内 存 虚 拟 化 的 关键 ， 这 是 世界 
上 每 一 个 现代 计算 机 系统 的 基础 。 








提示 : 隔离 原则 


隔离 是 建立 可 靠 系统 的 关键 原则 。 如 果 两 个 实体 相互 隔离 ， 
这 意味 着 一 个 实体 的 失败 不 会 影响 另 一 个 实体 。 操 作 系 统 力 
求 让 进程 彼此 隔离 ， 从 而 防止 相互 造成 伤害 。 通 过 内 存 隔 
离 ， 操 作 系 统 进一步 确保 运行 程序 不 会 影响 底层 操作 系统 的 
操作 。 一 些 现代 操作 系统 通过 将 某 些 部 分 与 操作 系统 的 其 他 
部 分 分 离 ， 实 现 进 一 步 的 隔离 。 这 样 的 微 内 核 
Cmicrokernel ) [BH70，R+89，S+03] 可 以 比 整 体内 核 提 供 








更 大 的 可 靠 性 。 
13.4 目标 


在 这 一 章 中 ， 我 们 触及 操作 系统 的 工作 一 一 虚拟 化 内 存 。 操 作 系 统 不 
仅 虚拟 化 内 存 ， 还 有 一 定 的 风格 。 为 了 确保 操作 系统 这 样 做 ， 我 们 需 
要 一 些 目标 来 指导 。 以 前 我 们 已 经 看 过 这 些 目标 《〈 想 想 本 章 的 前 
言 》， 我 们 会 再 次 看 到 它们 ， 但 它们 肯定 是 值得 重复 的 。 


虚拟 内 存 〈VM) 系统 的 一 个 主要 目标 是 透明 (transparency) 4 于 。 操 
作 系统 实现 虚拟 内 存 的 方式 ， 应 该 让 运行 的 程序 看 不 见 。 因 此 ， 程 序 
不 应 该 感知 到 内 存 被 虚拟 化 的 事实 ， 相 反 ， 程 序 的 行为 就 好 像 它 拥有 
目 己 的 私有 物理 内 存 。 在 幕后 ， 操 作 系统 《和 硬件 ) 完成 了 所 有 的 工 
作 ， 让 不 同 的 工作 复 用 内 存 ， 从 而 实现 这 个 假象 。 


虚拟 内 存 的 另 一 个 目标 是 效率 (efficiency) 。 操 作 系 统 应 该 追求 虚 
拟 化 尽 可 能 高 效 (efficient) ， 包 括 时 间 上 〔 即 不 会 使 程序 运行 得 更 
慢 ， 和 空间 上 “〔( 即 不 需要 太 多 额外 的 内 存 来 支持 虚拟 化 )。 在 实现 高 
效率 虚拟 化 时 ， 操 作 系 统 将 不 得 不 依靠 硬件 支持 ， 包 括 TLB 这 样 的 硬件 
功能 〈 我 们 将 在 适当 的 时 候 学 习 ) 。 


最 后 ， 虚 拟 内 存 第 三 个 目标 是 保护 〈protection) 。 操 作 系 统 应 确保 
进程 受到 保护 〈protect) ， 不 会 受 其 他 进程 影响 ， 操 作 系统 本 吴 也 不 
会 受 进程 影响 。 当 一 个 进程 执行 加 载 、 存 储 或 指令 提取 时 ， 它 不 应 该 
以 任何 方式 访问 或 影响 任何 其 他 进程 或 操作 系统 本 映 的 内 存 内 容 〈 即 
在 它 的 地 址 空间 之 外 的 任何 内 容 ) 。 因 此 ， 保 护 让 我 们 能 够 在 进程 之 























间 提 供 隔离 〈isolation) 的 特性 ， 每 个 进程 都 应 该 在 自己 的 独立 环境 
中 运行 ， 避 人 免 其 他 出 错 或 恶意 进程 的 影响 。 


补充 : 你 看 到 的 所 有 地 址 都 不 是 真 的 


写 过 打印 出 指针 的 C 程 序 吗 ? 你 看 到 的 值 (一 些 大 数字 ， 通 常 
以 十 六 进 制 打 印 ) 是 虚拟 地 址 (virtual address) 。 有 没有 
想 过 你 的 程序 代码 在 哪里 找到 ? 你 也 可 以 打印 出 来 ， 是 的 ， 
如 果 你 可 以 打印 它 ， 它 也 是 一 个 虚拟 地 址 。 实 际 上 ， 作 为 用 
户 级 程序 的 程序 员 ， 可 以 看 到 的 任何 地 址 都 是 虚拟 地 址 。 只 
有 操作 系统 ， 通 过 精妙 的 虚拟 化 内 存 技术 ， 知 道 这 些 指令 和 
数据 所 在 的 物理 内 存 的 位 置 。 所 以 永远 不 要 忘记 : 如 果 你 在 
一 个 程序 中 打印 出 一 个 地 址 ， 那 就 是 一 个 虚拟 的 地 址 。 虚 拟 
地 址 只 是 提供 地 址 如 何在 内 存 中 分 布 的 假象 ， 只 有 操作 系统 
(和 人 硬件) 才 知 道 物理 地 址 。 


这 里 有 一 个 小 程序 ， 打 印 出 main() 函数 (代码 所 在 地 方 〉 的 
地 址 ， 由 malloc0 〇 返回 的 堆 空 间 分 配 的 值 ， 以 及 栈 上 一 个 整 
数 的 地 址 : 


#include <stdio.nhn> 

#include <stdlib.n> 

int main(int argc, char *argv[]) { 
printf("location of code : Sp\n", (void *) main); 
printf("location of heap : Sp\n", (void *) malloc(1)); 
int x = 3; 
printf("location of stack : Sp\n", (void *) &x); 
return x; 


} 
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在 64 位 的 Mac 上 面 运 行 时 ， 我 们 得 到 以 下 输出 : 


location of code : 0x1095afe50 
location of heap : 0x1096008c0 
location of stack : Ox7fff691aea64 


从 这 里 ， 你 可 以 看 到 代码 在 地 址 空间 开头 ， 然 后 是 堆 ， 而 栈 
在 这 个 大 型 虚拟 地 址 空间 的 男 一 端 。 所 有 这 些 地 址 都 是 虚拟 
的 ， 并 且 将 由 操作 系统 和 硬件 翻译 成 物理 地 址 ， 以 便 从 真实 
的 物理 位 置 获取 该 地 址 的 值 。 





在 接 下 来 的 章节 中 ， 我 们 将 重点 介绍 虚拟 化 内 存 所 需 的 基本 机 制 

(mechanism) ， 包 括 便 件 和 操作 系统 的 文 持 。 我 们 还 将 研究 一 些 较 相 
关 的 策略 (policy) ， 你 会 在 操作 系统 中 遇 到 它们 ， 包 括 如 何 管理 可 
用 空间 ， 以 及 在 空间 不 足 时 哪些 页 面 该 释放 。 通 过 这 些 内 容 ， 你 会 逐 
渐 理 解 现 代 虚 拟 内 存 系 统 真正 的 工作 原理 13.。 


13.5 小 结 


我 们 介绍 了 操作 系统 的 一 个 重要 子 系统 : 虚拟 内 存 。 虚 拟 内 存 系统 负 
责 为 程序 提供 一 个 巨大 的 、 稀 下 的 、 私 有 的 地 址 空间 的 假象 ， 其 中 保 
存 了 程序 的 所 有 指令 和 数据 。 操 作 系统 在 专门 硬件 的 帮助 下 ， 通 过 每 
一 个 虚拟 内 存 的 索引 ， 将 其 转换 为 物理 地 址 ， 物 理 内 存根 据 获 得 的 物 
理 地 址 去 获取 所 需 的 信息 。 操 作 系 统 会 同时 对 许多 进程 执行 此 操作 ， 
并 且 确 保 程序 之 间 互 相 不 会 受到 影响 ， 也 不 会 影响 操作 系统 。 整 个 方 
法 需要 大 量 的 机 制 〈 很 多 底层 机 制 ) 和 一 些 关 键 的 策略 。 我 们 将 自 底 
加 上 ， 先 描述 关键 机 制 。 我 们 继续 吧 ! 
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第 14 章 ” 插 和 叙 : 内 存 操作 API 


在 本 章 中 ， 我 们 将 介绍 UNIX 操作 系统 的 内 存 分 配 接口 。 操 作 系统 提 
供 的 接口 非常 简洁 ， 因 此 本 章 简 明 扼 要 由。 本 章 主 要 关注 的 问题 是 : 


关键 问题 : 如何 分 配 和 管理 内 存 


在 UNIX/C 程 序 中 ， 理 解 如 何 分 配 和 管理 内 存 是 构建 健壮 和 可 
靠 软件 的 重要 基础 。 通 常 使 用 哪些 接口 ? 哪些 错误 需要 如 


14.1 内 存 类 型 


在 运行 一 个 C 程 序 的 时 候 ， 会 分 配 两 种 类 型 的 内 存 。 第 一 种 称 为 栈 内 
存 ， 它 的 申请 和 释放 操作 是 编译 器 来 隐 式 管理 的 ， 所 以 有 时 也 称 为 自 
动 (automatic) 内 存 。 


C 中 申请 栈 内 存 很 容易 。 比 如 ， 假 设 需要 在 func () 函数 中 为 一 个 整形 变 
量 x 申 请 空间 。 为 了 声明 这 样 的 一 块 内 存 ， 只 需要 这 样 做 : 


void func() { 
int x; // declares an integer on the stack 


} 


编译 器 完成 剩 下 的 事情 ， 确 保 在 你 进入 func() 函数 的 时 候 ， 在 栈 上 
开辟 空间 。 当 你 从 该 函数 退出 时 ， 编 译 器 释放 内 存 。 因 此 ， 如 果 你 硕 
望 某 些 信息 存在 于 函数 调用 之 外 ， 建 议 不 要 将 它们 放 在 栈 上 。 








就 是 这 种 对 长 期 内 存 的 需求 ， 所 以 我 们 才 需 要 第 二 种 类 型 的 内 存 ， 即 
所 谓 的 堆 (heap〉 内 存 ， 其 中 所 有 的 申请 和 释放 操作 都 由 程序 员 显 式 
地 完成 。 守 无 疑问 ， 这 是 一 项 非常 艰巨 的 任务 ! 这 确实 导致 了 很 多 缺 
陷 。 但 如 果 小 心 并 加 以 注意 ， 就 会 正确 地 使 用 这 些 接口 ， 没 有 太 多 的 
ae 


void func() 1{ 
int *x = (int *) malloc(sizeof(int) ) ， 


} 


关于 这 一 小 段 代码 有 两 点 说 明 。 首 先 ， 你 可 能 会 注意 到 栈 和 堆 的 分 配 
都 发 生 在 这 一 行 : 首先 编译 器 看 到 指针 的 声明 〈int * x) 时 ， 知 道 为 
一 个 整 型 指针 分 配 空间 ， 随 后 ， 当 程序 调用 malloc() 时 ， 它 会 在 堆 上 
请 求 整数 的 空间 ， 函 数 返回 这 样 一 个 整数 的 地 址 (成 功 时 ， 失 败 时 则 
返回 NULL) ， 然 后 将 其 存储 在 栈 中 以 供 程 序 使 用 。 


因为 它 的 显 式 特性 ， 以 及 它 更 富 于 变化 的 用 法 ， 堆 内 存 对 用 户 和 系统 
提出 了 更 大 的 挑战 。 所 以 这 也 是 我 们 接 下 来 讨论 的 重点 。 


14.2 malloc() 调 用 


malloc 函数 非常 简单 : 传 入 要 申请 的 堆 空 间 的 大 小 ， 它 成 功 就 返回 一 
个 指向 新 申请 空间 的 指针 ， 失 败 就 返回 NULLL21。 
man 手 册 展 示 了 使 用 malloc 需 要 怎么 做 ， 在 命令 行 输入 man malloc， 你 
会 看 到 : 

#include <stdqlib .hnh> 


void *malloc(size t size); 





从 这 段 信息 可 以 看 到 ， 只 需要 包含 头 文 件 stdlib.h 就 可 以 使 用 
malloc 了 。 但 实际 上 ， 甚 至 都 不 需 这 样 做 ， 因 为 C 库 是 C 程 序 默认 链 接 





的 ， 其 中 就 有 mallock 0 的 代码 ， 加 上 这 个 头 文 件 只 是 让 编译 器 检查 你 
古 否 正确 调用 了 mallocW 〈 即 传 入 参数 的 数目 正确 且 类 型 正确 ) 。 


malloc 只 需要 一 个 size 类 型 参数 ， 该 参数 表示 你 需要 多 少 个 字 节 。 
然而 ， 大 多 数 程序 员 并 不 会 直接 传 入 数字 《比如 10) 。 实 际 上 ， 这 样 
做 会 被 认为 是 不 太 好 的 形式 。 蔡 代 方 案 是 使 用 各 种 函数 和 宏 。 例 如 ， 
为 了 给 双 精 度 浮 点 数 分 配 空间 ， 只 要 这 样 : 


double *d = (double *) malloc(sizeof (double)); 

















提示 : 如 果 困 惑 ， 动 手 试 试 


如 果 你 不 确定 要 用 的 一 些 函 数 或 者 操作 符 的 行为 ， 唯 一 的 办 
法 束 是 斌 一下， 确保 它 的 行为 符合 你 的 期 望 。 虽 然 读 手册 或 
其 他 文档 是 有 用 的 ， 但 在 实际 中 如 何 使 用 更 为 重要 。 实 际 
| 
了 是 真 的 ! 


啊 ， 好 多 double! 对 malloc 0 的 调用 使 用 sizeof () 操作 符 去 申请 正确 

大 小 的 空间 。 在 C 中 ， 这 通常 被 认为 是 编译 时 操作 符 ， 意 味 着 这 个 大 

小 是 在 编译 时 就 已 知道 ， 因 此 被 蔡 换 成 一 个 数 ( 在 本 例 中 是 8， 对 于 

double) ， 作 为 malloc 0 的 参数 。 出 于 这 个 原因 ，sizeof () 被 正确 地 

人 人 
) 。 


你 也 可 以 传 入 一 个 变量 的 名 字 【 而 不 只 是 类 型 ) 给 sizeof() ， 但 在 一 
些 情况 下 ， 可 能 得 不 到 你 要 的 结果 ， 所 以 要 小 心 使 用 。 例 如 ， 看 看 下 
面 的 代码 片段 : 











int *x = malloc(10 * sizeof (int)); 
printf("%$d\n", sizeof (x)); 


在 第 一 行 ， 我 们 为 10 个 整数 的 数组 声明 了 空间 ， 这 很 好 ， 很 漂 之 。 但 
是 ， 当 我 们 在 下 一 行使 用 sizeofO 时 ， 它 将 返回 一 个 较 小 的 值 ， 例 如 


4 (在 32 位 计算 机 上 ) 或 8 〈 在 64 位 计算 机 上 ) 。 原 因 是 在 这 种 情况 
下 ，sizeof 0 认为 我 们 只 是 问 一 个 整数 的 指针 有 多 大 ， 而 不 是 我 们 动 
ne 


让 可 蕊 纺 [1Q0] 3 
printf("%$d\n", sizeof (x)); 


在 这 种 情况 下 ， 编 译 器 有 足够 的 静态 信息 ， 知 道 已 经 分 配 了 40 个 字 
Ws 


男 一 个 需要 注意 的 地 方 是 使 用 字符 串 。 如 果 为 一 个 字符 串 声 明 空 间 ， 
请 使 用 以 下 习惯 用 法 : malloc (strlen(s) + 1) ， 它 使 用 函数 strlen () 
获取 字符 串 的 长 度 ， 并 加 上 上 1， 以便 为 字符 串 结束 符 留 出 空间 。 这 里 使 
用 sizeof (可 能 会 导致 肪 烦 。 


你 也 许 还 注意 到 malloc (0 返回 一 个 指向 void 类 型 的 指针 。 这 样 做 只 是 C 
中 传 回 地 址 的 方式 ， 让 程序 员 决 定 如 何 处 理 它 。 程 序 员 将 进一步 使 用 
所 谓 的 强制 类 型 转换 《cast) ， 在 我 们 上 面 的 示例 中 ， 程 序 员 将 返回 
类 型 的 malloc (0) 强制 转换 为 指向 double 的 指针 。 强 制 类 型 转换 实际 上 
没 干什么 事 ， 只 是 告诉 编译 器 和 其 他 可 能 正在 读 你 的 代码 的 程序 员 : 
“是 的 ， 我 知道 我 在 做 什么 。” 通 过 强制 转换 malloc () 的 结果 ， 程 序 
员 只 是 在 给 和 人 一些 信 心 ， 强 制 转 换 不 是 程序 正确 所 必须 的 。 





14.3 free (调用 


事实 证 明 ， 分 配 内 存 是 等 式 的 简单 部 分 。 知 道 何 时 、 如 何以 及 是 否 释 
放 内 存 是 困难 的 部 分 。 要 释放 不 再 使 用 的 堆 内 存 ， 程 序 员 只 需 调 用 
free () : 

int *x = malloc(10 * sizeof (int)); 


free (x); 


该 函数 接受 一 个 参数 ， 即 一 个 由 malloc () 返回 的 指针 。 


因此 ， 你 可 能 会 注意 到 ， 分 配 区 域 的 大 小 不 会 被 用 户 传 入 ， 必 须 由 内 
存 分 配 库 本 里 记录 人 退 踩 。 








14.4 和 常见 错误 


在 使 用 mallocW 和 free 0 时 会 出 现 一 些 常 见 的 错误 。 以 下 是 我 们 在 教 
授 本 科 操 作 系 统 课程 时 反复 看 到 的 情形 。 所 有 这 些 例子 部 可 以 通过 编 
译 絮 的 编译 并 运行 。 对 于 构建 一 个 正确 的 C 程 序 来 说 ， 通 过 编译 是 必要 
的 ， 但 这 远 远 不 够 ， 你 会 懂 的 《〈 通 利 在 吃 了 很 多 苦头 之 后 ) 。 


实际 上 ， 正 确 的 内 存 管理 就 是 这 样 一 个 问题 ， 许 多 新 语言 都 支持 自动 
内 存 管理 (automatic memory management ) 。 在 这 样 的 语言 中 ， 当 你 
调用 类 似 malloc 0 的 机 制 来 分 配 内 存 时 (通常 用 new 或 类 似 的 东西 来 分 
配 一 个 新 对 象 )， 你 永远 不 需要 调用 某 些 东 西 来 释放 空间 。 实 际 上 ， 
垃圾 收集 器 (garbage collector) 会 运行 ， 找 出 你 不 再 引用 的 内 存 ， 
蔡 你 释放 它 。 








态 记 分 配 内 存 


许多 例 程 在 调用 之 前 ， 都 希望 你 为 它们 分 配 内 存 。 例 如 ， 例 程 
strcpy(dst，src) 将 源 字 符 串 中 的 字符 串 复 制 到 目标 指针 。 但 是 ， 如 
果 不 小 心 ， 你 可 能 会 这 样 做 : 


char *dst; // oops! unallocated 
strcpy (dst, src); // segfault and die 


运行 这 段 代 码 时 ， 可 能 会 导致 段 错误 (segmentation fault) [31， 这 
是 一 个 很 奇怪 的 术语 ， 表 示 “ 你 对 内 存 犯 了 一 个 错误 。 你 这 个 辕 驰 的 
程序 员 。 我 很 生气 。” 


提示 : 它 编译 过 了 或 它 运行 了 != 它 对 了 


仅仅 因为 程序 编译 过 了 甚至 正确 运行 了 一 次 或 多 次 ， 并 不 意 
味 着 程序 是 正确 的 。 许 多 事件 可 能 会 让 你 相信 它 能 工作 ， 但 
是 之 后 有 些 事情 会 发 生变 化 ， 它 停止 了 。 学 生 常见 的 反应 是 
说 (或 者 叫喊 ) “但 它 以 前 是 好 的 ! ”， 然 后 责怪 编译 器 、 
操作 系统 、 硬 件 ， 甚 至 是 《我 们 敢 说 ) 教授 。 但 是 ， 问 题 通 
常 就 像 你 认为 的 那样 ， 在 你 的 代码 中 。 在 指责 别人 之 前 ， 先 
的 起 袖子 调试 一 下 。 











在 这 个 例子 中 ， 正 确 的 代码 可 能 像 这 样 : 


char *src = "hello"; 
char *dst = (char *) malloc(strlen(src) + 1)， 
strcpy(dst, src); // work properly 


或 者 你 可 以 用 strdup () ， 让 生活 更 加 轻松 。 阅 读 strdup 的 man 手 册页 ， 
了 解 更 多 信息 。 





没有 分 配 足 够 的 内 存 





男 一 个 相关 的 错误 是 没有 分 配 足 够 的 内 存 ， 有 时 称 为 缓冲 区 淤 出 
(buffer overflow) 。 在 上 面 的 例子 中 ， 一 个 常见 的 错误 是 为 目标 缓 
冲 区 留 出 “几乎 ”足够 的 空间 。 


char *dst = (char *) malloc(strlen(src)); // too smal1ll 
strcpy(dst, src); // work properly 


奇怪 的 是 ， 这 个 程序 通常 看 起 来 会 正确 运行 ， 这 取决 于 如 何 实 现 
malloc 和 许多 其 他 细节 。 在 某 些 情况 下 ， 当 字符 串 找 贝 执行 时 ， 它 会 
在 超过 分 配 空间 的 末尾 处 号 入 一 个 字 节 ， 但 在 茶 些 情况 下 ， 这 是 无 害 
的 ， 可 能 会 覆盖 不 再 使 用 的 变量 。 在 某 些 情况 下 ， 这 些 溢出 可 能 具有 
令 人 难以 置信 的 危害 ， 实 际 上 是 系统 中 许多 安全 漏洞 的 来 源 [W06] 。 在 





其 他 情况 下 ，malloc 库 总 是 分 配 一 些 额 外 的 空间 ， 因 此 你 的 程序 实际 
上 不 会 在 其 他 茶 个 变量 的 值 上 涂写 ， 并 且 工 作 得 很 好 。 还 有 一 些 情 况 
下 ， 该 程序 确实 会 发 生 故 障 和 崩 尝 。 因 此 ， 我 们 学 到 了 另 一 个 宝贵 的 
教训 : 即使 它 正确 运行 过 一 次 ， 也 不 意味 着 它 是 正确 的 。 


护 记 初始 化 分 配 的 内 存 


在 这 个 错误 中 ， 你 正确 地 调用 malloc()， 但 忘记 在 新 分 配 的 数据 类 型 
中 填写 一 些 值 。 不 要 这 样 做 ! 如 果 你 忘记 了 ， 你 的 程序 最 终 会 遇 到 未 
初始 化 的 读 取 (uninitialized read) ， 它 从 堆 中 读 取 了 一 些 未 知 值 
的 数据 。 谁 知道 那里 可 能 会 有 什么 ? 如 果 走 运 ， 读 到 的 值 使 程序 仍然 
有 效 〈 例 如 ， 零 ) 。 如 果 不 走 运 ， 会 读 到 一 些 随机 和 有 害 的 东西 。 


未 记 释放 内 存 


另 一 个 常见 错误 称 为 内 存 泄露 (memory Leak) ， 如 果 忘 记 释 放 内 存 ， 
就 会 发 生 。 在 长 时 间 运 行 的 应 用 程序 或 系统 《〈 如 操作 系统 本 身 ) 中 ， 
这 是 一 个 巨大 的 问题 ， 因 为 缓慢 泄露 的 内 存 会 导致 内 存 不 足 ， 此 时 需 
要 重新 启动 。 因 此 ， 一 般 来 说 ， 当 你 用 完 一 段 内 存 时 ， 应 该 确保 释放 
它 。 请 注意 ， 使 用 垃圾 收集 语言 在 这 里 没有 什么 帮助 : 如 果 你 仍然 拥 
有 对 某 块 内 存 的 引用 ， 那 么 垃圾 收集 器 就 不 会 释放 它 ， 因 此 即使 在 较 
现代 的 语言 中 ， 内 存 泄露 仍然 是 一 个 问题 。 


在 茶 些 情况 下 ， 不 调用 free 0 似乎 是 合理 的 。 例 如 ， 你 的 程序 运行 时 
间 很 短 ， 很 快 就 会 退出 。 在 这 种 情况 下 ， 当 进程 死亡 时 ， 操 作 系统 将 
清理 其 分 配 的 所 有 页 面 ， 因 此 不 会 发 生 内 存 泄 露 。 虽 然 这 肯定 “ 

效 ”《 请 参阅 后 面 的 补充 ) ， 但 这 可 能 是 一 个 坏 习惯 ， 所 以 请 谨慎 选 
择 这 样 的 策略 。 长 远 来 看 ， 作 为 程序 员 的 目标 之 一 是 养 成 民 好 的 习 
惯 。 其 中 一 个 习惯 是 理解 如 何 管 理 内 存 ， 并 在 C 这 样 的 语言 中 ， 释 放 分 
配 的 内 存 块 。 即 使 你 不 这 样 做 也 可 以 逃脱 惩 避 ， 建 议 还 是 养 成 习惯 ， 
释放 显 式 分 配 的 每 个 字 节 。 








在 用 完 之 前 释放 内 存 





有 时 候 程 序 会 在 用 完 之 前 释放 内 存 ， 这 种 错误 称 为 悬挂 指针 

(dangling pointer) ， 正 如 你 猜测 的 那样 ， 这 也 是 一 件 坏 事 。 随 后 
的 使 用 可 能 会 导致 程序 骨 溃 或 覆盖 有 效 的 内 存 〈 例 如 ， 你 调用 了 
free() ， 但 随后 再 次 调用 malloc () 来 分 配 其 他 内 容 ， 这 重新 利用 了 错 
误 释 放 的 内 存 ) 。 


反复 释放 内 存 











程序 有 时 还 会 不 止 一 次 地 释放 内 存 ， 这 锌 称 为 重复 释放 ( double 
free) 。 这 样 做 的 结果 是 未 定义 的 。 正 如 你 所 能 想象 的 那样 ， 内 存 分 
配 库 可 能 会 感到 困惑 ， 并 且 会 做 各 种 奇怪 的 事情 ， 崩 尝 是 常见 的 结 
果 。 


错误 地 调用 free 0， 


我 们 讨论 的 最 后 一 个 问题 是 free 0 的 调用 错误 。 毕 葛 ，free 0 期望 你 
只 传 入 之 前 从 malloc 0 得 到 的 一 个 指针 。 如 果 传 入 一 些 其 他 的 值 ， 坏 
事 就 可 能 发 生 《〈 并 且 会 发 生 ) 。 因 此 ， 这 种 无 效 的 释放 (invalid 
free) 是 危险 的 ， 当 然 也 应 该 避免 。 


补充 : 为 什么 在 你 的 进程 退出 时 没有 内 存 泄 露 


当 你 编写 一 个 短 时 间 运 行 的 程序 时 ， 可 能 会 使 用 malloc 0 分 
配 一 些 空 间 。 程 序 运行 并 即将 完成 : 是 否 需 要 在 退出 前 调用 
几 次 free() ?虽然 不 释放 似乎 不 对 ， 但 在 真正 的 意义 上 ， 没 




















有 任何 内 存 会 “丢失 ”。 原 因 很 简单 ， 系统 中 实际 存在 两 级 
内 存 管理 。 


第 一 级 是 由 操作 系统 执行 的 内 存 管 理 ， 操 作 系 统 在 进程 运行 
时 将 内 存 交 给 进程 ， 并 在 进程 退出 (或 以 其 他 方式 结束 ) 时 
将 其 回收 。 第 二 级 管理 在 每 个 进程 中 ， 例 如 在 调用 malloc () 
和 free (O 时， 在 堆 内 管理 。 即 使 你 没有 调用 free() 〈 并 因此 
泄露 了 堆 中 的 内 存 )， 操 作 系 统 也 会 在 程序 结束 运行 时 ， 收 
回 进 程 的 所 有 内 存 〈 包 括 用 于 代码 、 栈 ， 以 及 相关 堆 的 内 存 
页 ) 。 无 论 地 址 空间 中 堆 的 状态 如 何 ， 操 作 系 统 都 会 在 进程 
终止 时 收回 所 有 这 些 页 面 ， 从 而 确保 即使 没有 释放 内 存 ， 也 
不 会 丢失 内 存 。 


因此 ， 对 于 短 时 间 运 行 的 程序 ， 泄 露 内 存 通 常 不 会 导致 任何 
操作 问题 (尽管 它 可 能 被 认为 是 不 好 的 形式 ) 。 如 果 你 编写 
一 个 长 期 运行 的 服务 器 (例如 Web 服 务 器 或 数据 库 管 理 系统 ， 
它 永 远 不 会 退出 ) ， 洪 露 内 存 就 是 很 大 的 问题 ， 最 终 会 导致 
应 用 程序 在 内 存 不 足 时 崩 尝 。 当 然 ， 在 某 个 程序 内 部 泄露 内 
存 是 一 个 更 大 的 问题 : 操作 系统 本 号。 这 再 次 向 我 们 展示 : 
编写 内 核 代码 的 人 ， 工 作 是 辛 昔 的 …… 




















小 结 


如 你 所 见 ， 有 很 多 方法 滥用 内 存 。 由 于 内 存 出 错 很 常见 ， 整 个 工具 生 
态 圈 已 经 开发 出 来 ， 可 以 帮助 你 在 代码 中 找到 这 些 问 题 。 请 查看 
purify [HJ92] 和 valgrind [LSN05] ， 在 帮助 你 找到 与 内 存 有 关 的 问题 
的 根源 方面 ， 两 者 都 非常 出 色 。 一 旦 你 习惯 于 使 用 这 些 强大 的 工具 ， 
就 会 想 和 知道， 没有 它们 时 ， 你 是 如 何 活 下 来 的 。 








14.5 底层 操作 系统 支持 


你 可 能 已 经 注意 到 ， 在 讨论 malloc() 和 free (0 时， 我 们 没有 讨论 系统 
调用 。 原 因 很 简单 : 它们 不 是 系统 调用 ， 而 是 库 调 用 。 因 此 ，malloc 
库 管理 虚拟 地 址 空间 内 的 空间 ， 但 是 它 本 身 是 建立 在 一 些 系统 调用 之 
上 上 的， 这些 系 统 调用 会 进入 操作 系统 ， 来 请 求 更 多 内 存 或 者 将 一 些 内 
容 释 放 回 系统 。 


一 个 这 样 的 系统 调用 叫 作 brk， 它 被 用 来 改变 程序 分 断 (break〉 的 位 
置 : 堆 结束 的 位 置 。 它 需要 一 个 参数 《新 分 断 的 地 址 ) ， 从 而 根据 新 
分 断 是 大 于 还 是 小 于 当前 分 断 ， 来 增加 或 减 小 堆 的 大 小 。 男 一 个 调用 
sbrk 要 求 传 入 一 个 增 量 ， 但 目的 是 类 似 的 。 


请 注意 ， 你 不 应 该 直接 调用 brk 或 sbrk。 它 们 被 内 存 分 配 库 使 用 。 如 果 
你 尝试 使 用 它们 ， 很 可 能 会 犯 一 些 错 误 。 建 议 坚 持 使 用 malloc() 和 
free () 。 


最 后 ， 你 还 可 以 通过 mmap () 调用 从 操作 系统 获取 内 存 。 通 过 传 入 正确 
的 参数 ，mmap 0 可 以 在 程序 中 创建 一 个 匿名 (anonymous ) 内 存 区 域 
一 一 这 个 区 域 不 与 任何 特定 文件 相关 联 ， 而 是 与 交换 空间 〈swap 
space) 相关 联 ， 稍 后 我 们 将 在 虚拟 内 存 中 详细 讨论 。 这 种 内 存 也 可 以 
像 堆 一 样 对 待 并 管理 。 阅 读 mmap 0 的 手册 页 以 获取 更 多 详细 信息 。 

















14.6 其 他 调用 





内 存 分 配 库 还 支持 一 些 其 他 调用 。 例 如 ，calloc () 分 配 内 存 ， 并 在 返 
回 之 前 将 其 置 零 。 如 果 你 认为 内 存 已 归 零 并 忘记 自己 初始 化 它 ， 这 可 
以 防止 出 现 一 些 错 误 (请 参阅 14. 4 节 中 “忘记 初始 化 分 配 的 内 存 ” 的 
内 容 ) 。 当 你 为 某 些 东西 〈 比 如 一 个 数组 ) 分 配 空 间 ， 然 后 需要 添加 
一 些 东 西 时 ， 例 程 fealloc (0) 也 会 很 有 用 : realloc (0 创建 一 个 新 的 更 
大 的 内 存 区 域 ， 将 旧 区 域 复制 到 其 中 ， 并 返回 新 区 域 的 指针 。 





14.7 小 结 


我 们 介绍 了 一 些 处 理 内 存 分 配 的 API。 与 往常 一 样 ， 我 们 只 介绍 了 基本 
知识 。 更 多 细节 可 在 其 他 地 方 获 得 。 请 阅读 C 语 言 的 书 [KR88] 和 
Stevens [SR05] (第 7 章 ) 以 获取 更 多 信息 。 有 关 如 何 上 自动 检测 和 纠正 
这 些 问题 的 很 酷 的 现代 论文 ， 请 参阅 Novark 等 人 的 论文 [IN+07] 。 这 篇 
文章 还 包含 了 对 常见 问题 的 很 好 的 总 结 ， 以 及 关于 如 何 查 找 和 修复 它 
们 的 一 些 简洁 办 法 。 











[HJ92|] Purify: Fast Detection of Memory Leaks and Access 
Errors 


R. Hastings and B. Joyce USENIX Winter ” 92 





很 酷 的 Purify 工 具 背 后 的 文章 。Purify 现 在 是 商业 产品 。 


[KR88] “The C Programming Language” Brian Kernighan and 
Dennis Ritchie Prentice-Hall 1988 


C 之 书 ， 由 C 的 开发 者 编写 。 读 一 过， 编 一 些 程序 ， 然 后 再 读 一 过， 让 
它 成 为 你 的 案头 手册 。 


[IN+07] “Exterminator: Automatically Correcting Memory Errors 
with High Probability” Gene Novark, Emery D. Berger, and 
Benjamin G. Zorn 


PLDI 2007 


一 篇 很 酷 的 文章 ， 包 含 自动 查找 和 纠正 内 存 错误 ， 以 及 C 和 C ++ 程 序 中 
许多 弟 见 错误 的 概述 。 


[SNO5] “Using Valgrind to Detect Undefined Value Errors with 
Bit-precision” 


J. Seward and N. Nethercote USENIX ” 05 


如 何 使 用 valgrind 来 查找 某 些 类 型 的 错误 。 

[SRO5] “Advanced Programming in the UNIX Environment” 

W. Richard Stevens and Stephen A. Rago Addison-Wesley, 2005 
我 们 之 前 已 经 说 过 了 ， 这 里 再 重申 一 裔 : 读 这 本 书 很 多 遍 ， 并 在 有 疑 
问 时 将 其 用 作 参 考 。 本 书 的 两 位 作者 总 是 很 尺 讶 ， 每 次 读 这 本 书 时 都 
会 学 到 一 些 新 东西 ， 即 使 具有 多 年 的 C 语 言 编 程 经 验 的 程序 员 。 


[WO6] “Survey on Buffer Overflow Attacks and 
Countermeasures” Tim Werthman 


一 份 很 好 的 调查 报告 ， 关 于 缓冲 区 溢出 及 其 造成 的 一 些 安全 问题 。 文 
中 指出 了 许多 著名 的 漏洞 。 

















作业 《编码 ) 





在 这 个 作业 中 ， 你 会 对 内 存 分 配 有 所 了 解 。 首 先 ， 你 会 写 一 些 错 误 的 
程序 〈 好 玩 ! ) 。 然 后 ， 利 用 一 些 工具 来 帮助 你 找到 其 中 的 错误 。 最 
We 
大 不 高效 。 


你 要 使 用 的 第 一 个 工具 是 调试 器 gdb。 关 于 这 个 调试 器 有 很 多 需要 了 解 
的 知识 ， 在 这 里 ， 我 们 只 是 浅 答 加 止 。 


你 要 使 用 的 第 二 个 工具 是 valgrind [SN05] 。 该 工具 可 以 帮助 查找 程序 
中 的 内 存 泄 露 和 其 他 隐藏 的 内 存 问 题 。 如 果 你 的 系统 上 没有 安装 ， 请 
访问 valgrind 网 站 并 安装 它 。 





问题 





1， 首先 ， 编 写 一 个 名 为 mull. c 的 简单 程序 ， 它 创建 一 个 指向 整数 的 指 
针 ， 将 其 设置 为 NILL， 然 后 尝试 对 其 进行 释放 内 存 操作 。 把 它 编译 成 
一 个 名 为 null 的 可 执行 文件 。 当 你 运行 这 个 程序 时 会 发 生 什么 ? 


2. 接 下 来 ， 编 译 该 程序 ， 其 中 包含 符号 信息 《使 用 -g 标志 ) 。 这 样 
做 可 以 将 更 多 信息 放 入 可 执行 文件 中 ， 使 调试 器 可 以 访问 有 关 变 量 名 
称 等 的 更 多 有 用 信息 。 通 过 输入 gdb nul1， 在 调试 器 下 运行 该 程序 ， 
然后 ， 一 旦 gdb 运 行 ， 输入 run。 gdb 显 示 什 么 言 息 ? 


3. 最 后 ， 对 这 个 程序 使 用 valgrind 工 具 。 我 们 将 使 用 属于 valgrind 的 
memcheck 工具 来 分 析 发 生 的 情况 。 输 入 以 下 命令 来 运行 程序 : 
valgrind --1leak-check=yes null。 当 你 运行 它 时 会 发 生 什 么 ”你 能 
解释 工具 的 输出 吗 ? 


4. 编写 一 个 使 用 malloc0 〇 来 分 配 内 存 的 简单 程序 ， 但 在 退出 之 前 态 记 
释放 它 。 这 个 程序 运行 时 会 发 生 什么 ”你 可 以 用 gdb 来 查找 它 的 任何 问 
题 吗 ? 用 valgrind 呢 (再 次 使 用 --leak-check=yes 标 志 ) ? 


5. 编写 一 个 程序 ， 使 用 malloc 创 建 一 个 名 为 data、 大 小 为 100 的 整数 
数组 。 然 后 ， 将 data[100] 设 置 为 0(。 当 你 运行 这 个 程序 时 会 发 生 什 
么 ? 当 你 使 用 valgrind 运 行 这 个 程序 时 会 发 生 什 么 ? 程序 是 否 正 确 ? 


6. 创建 一 个 分 配 整数 数组 的 程序 (如 上 所 述 ) ， 释 放 它 们 ， 然 后 尝试 
程序 会 运行 吗 ? 当 你 使 用 valgrind 时 会 发 
入 ? 


7. 现在 传递 一 个 有 趣 的 值 来 释放 例如， 在 上 面 分 配 的 数组 中 间 的 一 
个 指针 ) 。 会 发 生 什 么 ? 你 是 否 需要 工具 来 找到 这 种 类 型 的 问题 ? 


8， 尝试 一 些 其 他 接口 来 分 配 内 存 。 例 如 ， 创 建 一 个 简单 的 向 量 似 的 数 
据 结构 ， 以 及 使 用 realloc 0 来 管理 向 量 的 相关 函数 。 使 用 数组 来 存储 
向 量 元 素 。 当 用 户 在 向 量 中 添加 条 目 时 ， 请 使 用 realloc () 为 其 分 配 更 
多 空间 。 这 样 的 向 量 表现 如 何 ? 它 与 链表 相 比 如 何 ? 使 用 valgrind 来 
帮助 你 发 现 错误 。 


9. 花 更 多 时 间 阅 读 有 关 使 用 gdb 和 valgrind 的 信息 。 了 解 你 的 工具 至 
关 重 要 ， 花 时 间 学 习 如 何 成 为 UNIX 和 C 环 境 中 的 调试 器 专家 。 












































1L]， 实 际 上 ， 我 们 希望 所 有 章节 都 简明 扼要 ! 但 我 们 认为 ， 本 章 更 简 
明 、 更 扼要 。 


[2]， 请 注意 ，C 中 的 NULL 实 际 上 并 不 是 什么 特别 的 东西 ， 只 是 一 个 值 
为 0 的 宏 。 


[3]， 尽 管 听 起 来 很 神秘 ， 但 你 很 快 就 会 明白 为 什么 这 种 非法 的 内 存 访 
问 被 称 为 段 错误 。 如 果 这 都 不 能 刺激 你 继续 读 下 去 ， 那 什么 能 呢 ? 





第 15 章 ”机 制 : 地 址 转换 


在 实现 CPU 虚拟 化 时 ， 我 们 遵循 的 一 般 准 则 被 称 为 受 限 直接 访问 
(Limited Direct Execution，LDE) 。LDE 背 后 的 想法 很 简单 : 让 程 
序 运行 的 大 部 分 指令 直接 访问 硬件 ， 只 在 一 些 关 键 点 (如 进程 发 起 系 
统 调用 或 发 生 时 钟 中 断 ) 由 操作 系统 介入 来 确保 “在 正确 时 间 ， 正 确 
的 地 点 ， 做 正确 的 事 ”。 为 了 实现 高 效 的 虚拟 化 ， 操 作 系 统 应 该 尽量 
让 程序 上 自己 运行 ， 同 时 通过 在 关键 点 的 及 时 介入 (interposing) ， 来 
保持 对 硬件 的 控制 。 高 效 和 控制 是 现代 操作 系统 的 两 个 主要 目标 。 


在 实现 虚拟 内 存 时 ， 我 们 将 追求 类 似 的 战略 ， 在 实现 高 效 和 控制 的 同 
时 ， 提 供 期 望 的 虚拟 化 。 高 效 决 定 了 我 们 要 利用 硬件 的 文 持 ， 这 在 开 
始 的 时 候 非常 初级 〈 如 使 用 一 些 寄存 器 ) ， 但 会 变 得 相当 复杂 《比如 
我 们 会 讲 到 的 TLB、 页 表 等 ) 。 控 制 意味 着 操作 系统 要 确保 应 用 程序 只 
能 访问 它 自 己 的 内 存 空 间 。 因 此 ， 要 保护 应 用 程序 不 会 相互 影响 ， 也 
不 会 影响 操作 系统 ， 我 们 需要 硬件 的 帮助 。 最 后 ， 我 们 对 虚拟 内 存 还 
有 一 点 要 求 ， 即 灵活 性 。 具 体 来 说 ， 我 们 希望 程序 能 以 任何 方式 访问 
它 自 己 的 地 址 空间 ， 从 而 让 系统 更 容易 编程 。 所 以 ， 关 键 问题 在 于 : 











关键 问题 : 如 何 高 效 、 灵 活 地 虚拟 化 内 存 


如 何 实现 高 效 的 内 存 虚 拟 化 ? 如 何 提供 应 用 程序 所 需 的 灵活 
性 ? 如 何 保持 控制 应 用 程序 可 访问 的 内 存 位 置 ， 从 而 确保 应 
0 如 何 高 效 地 实现 这 一 
J? 


我 们 利用 了 一 种 通用 技术 ， 有 时 被 称 为 基于 硬件 的 地 址 转换 
( hardware-based address translation ) ， 简 称 为 地 址 转换 
(address translation) 。 它 可 以 看 成 是 受 限 直接 执行 这 种 一 般 方法 

的 补充 。 利 用 地 址 转换 ， 硬 件 对 每 次 内 存 访 问 进行 处 理 〈 即 指令 获 








取 、 数 据 读 取 或 写 入 ) ， 将 指令 中 的 虚拟 (virtual) 地 址 转换 为 数据 
实际 存储 的 物理 (physical) 地 址 。 因 此 ， 在 每 次 内 存 引 用 时 ， 硬 件 
0 将 应 用 程序 的 内 存 引 用 重 定 位 到 内 存 中 实际 的 位 


当然 ， 仪 仅 依 靠 硬件 不 足以 实现 虚拟 内 存 ， 因 为 它 只 是 提供 了 底层 机 
制 来 提高 效率 。 操 作 系统 必须 在 关键 的 位 置 介 入 ， 设 置 好 和 硬件， 以便 
完成 正确 的 地 址 转换 。 因 此 它 必须 管理 内 存 (manage memory) ， 记 录 
被 占用 和 空闲 的 内 存 位 置 ， 并 明智 而 谨慎 地 介入 ， 保 持 对 内 存 使 用 的 


控制 。 


同样 ， 所 有 这 些 工作 都 是 为 了 创造 一 种 美丽 的 假象 ， 每 个 程序 都 拥有 
私有 的 内 存 ， 那 里 存放 着 它 自 己 的 代码 和 数据 。 虚 拟 现实 的 背后 是 丑 
陋 的 物理 事实 : 许多 程序 其 实 是 在 同一 时 间 共 享 着 内 存 ， 就 像 CPU《〈 或 
多 个 CPU) 在 不 同 的 程序 间 切 换 运行 。 通 过 虚拟 化 ， 操 作 系统 〈 在 硬件 














15.1 假设 








我 们 对 内 存 虚 拟 化 的 第 一 次 答 试 非常 简单 ， 甚 至 有 点 可 笑 。 如 果 你 筑 
得 可 笑 就 笑 吧 ， 很 快 就 轮 到 操作 系统 嘲笑 你 了 。 当 你 试图 理解 TLB 的 换 
入 换 出 、 多 级 页 表 ， 和 其 他 技术 一 样 有 奇迹 之 处 的 时 候 。 不 喜欢 操作 
系统 嘲笑 你 ?很 不 辛 ， 但 这 就 是 操作 系统 的 运行 方式 。 


具体 来 说 ,我们 先 假设 用 户 的 地 址 空间 必须 连续 地 放 在 物理 内 存 中 。 
同时 ， 为 了 简单 ， 我 们 假设 地 址 空间 不 是 很 大 ， 具 体 来 说 ， 小 于 物理 
内 存 的 大 小 。 最 后 ， 假 设 每 个 地 址 空间 的 大 小 完全 一 样 。 别 担心 这 些 
假设 听 起 来 不 切实 际 ， 我 们 会 逐步 地 放宽 这 些 假设 ， 从 而 得 到 现实 的 
内 存 虚 拟 化 。 





15. 2 一 个 例子 


为 了 更 好 地 理解 实现 地 址 转换 需要 什么 ， 以 及 为 什么 需要 ， 我 们 先 来 
看 一 个 简单 的 例子 。 设 想 一 个 进程 的 地 址 空间 如 图 15. 1 所 示 。 这 里 我 
们 要 检查 一 小 段 代 码 ， 它 从 内 存 中 加 载 一 个 值 ， 对 它 加 3， 然 后 将 它 存 
回 内 存 。 你 可 以 设想 ， 这 段 代码 的 C 语 言 形式 可 能 像 这 样 : 

void func() { 


oe 
x= xX+ 3; // this is the line of code we are interested in 








编译 器 将 这 行 代码 转化 为 汇编 语句 ， 可 能 像 下 面 这 样 (x86 汇 编 ) 。 我 
们 可 以 用 Linux 的 objdump 或 者 Mac 的 otool 将 它 反 汇编 : 


128: movl Ox0 (Sebx), %Seax ;load Otebx into eax 
132: addl $0x03, 多 eaX ;add 3 to eax register 
135: movl %Seax, 0O0x0 (Sebx) ;Store eax back to mem 





这 段 代 码 相对 简单 ， 它 假定 x 的 地 址 已 经 存 入 寄存 器 ebx， 之 后 通过 
mov1 指 令 将 这 个 地 址 的 值 加 载 到 通用 寄存 器 eax 〈 长 字 移动 ) 。 下 一 条 
间 令 对 eax 的 内 容 加 3。 最 后 一 条 指令 将 eax 中 的 值 写 回 到 内 存 的 同一 位 
置 。 


提示 : 介入 (Interposition) 很 强大 


介入 是 一 种 很 常见 又 很 有 用 的 技术 ， 计 算 机 系统 中 使 用 介入 
常 癌 能 带 来 很 好 的 效果 。 在 虚拟 内 存 中 ， 硬 件 可 以 介入 到 每 
次 内 存 访问 中 ， 将 进程 提供 的 虚拟 地 址 转换 为 数据 实际 存储 
的 物理 地 址 。 但 是 ， 一 般 化 的 介入 技术 有 更 广阔 的 应 用 空 
间 ， 实 际 上 几乎 所 有 良好 定义 的 接口 都 应 该 提供 功能 介入 机 
制 ， 以 便 增 加 功能 或 者 在 其 他 方面 提升 系统 。 这 种 方式 最 基 
本 的 优点 是 透明 (transparency) ， 介 入 完成 时 通常 不 需要 
改动 接口 的 客户 端 ， 因 此 客户 端 不 需要 任何 改动 。 











在 图 15. 1 中 ， 可 以 看 到 代码 和 数据 都 位 于 进程 的 地 址 空间 ，3 条 指令 序 
列 位 于 地 址 128《〈 靠 近 头 部 的 代码 段 ) ， 变 量 x 的 值 位 于 地 址 15KB 〈 在 
靠近 底部 的 栈 中 ) 。 如 图 15. 1 所 示 ，x 的 初始 值 是 3000。 
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图 15. 1 进程 及 其 地 址 空间 
如 果 这 3 条 指令 执行 ， 从 进程 的 角度 来 看 ， 发 生 了 以 下 几 次 内 存 访问 : 





”从 地 址 128 获 取 指令 ; 

。 执 行 指令 〈 从 地 址 15KB 加 载 数据 ) ; 
。 I 令 ; 

”执行 命令 《没有 中 存 访 问 ) | 

。 从 地 址 135 获 取 指 令 

. 执行 指令 (新 值 存 太 地 址 15KB) ， 


人 它 的 地 址 空间 (address space) 从 0 开始 到 16KB 
结束 。 它 包含 的 所 有 内 存 引用 都 应 该 在 这 个 范围 内 。 然 而 ， 对 虚拟 内 

存 来 说 ， 操作 系统 希望 将 这 个 进程 地 址 空间 放 在 物理 内 存 的 其 他 位 

置 ， 并 不 一 定 从 地 址 0 开始 。 因 此 我 们 遇 到 了 如 下 问题 : 怎样 在 内 存 中 

重 定位 这 个 进程 ， 同 时 对 该 进程 透明 〈transparent) ?怎么 样 提供 一 

人 空间 从 0 开始 的 假象 ， 而 实际 上 地 址 空间 位 于 另外 某 个 物理 
2 


ee 说 明 这 个 进程 的 地 址 空间 被 放 入 物理 内 存 后 

能 的 样子 。 从 图 15. 2 中 可 以 看 到 ， 操 作 系 统 将 第 一 块 物理 内 存留 给 
了 自 己 ， 并 将 上 述 例 子 中 的 进程 地 址 空间 重 定位 到 从 32KB 开 始 的 物理 
内 存 地 址 。 剩 下 的 两 块 内 存 空 亲 (16 一 32KB 和 48 一 64KB) 。 
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图 15.2 物理 内 存 和 单个 重 定位 的 进程 


15.3 ”动态 (基于 人 硬件) 重 定位 














为 了 更 好 地 理解 基于 硬件 的 地 址 转换 ， 我 们 先 来 讨论 它 的 第 一 次 应 
用 。 在 20 世 纪 50 年 代 后 期 ， 它 在 首次 出 现 的 时 分 机 器 中 引入 ， 那 时 只 
是 一 个 简单 的 思想 ， 称 为 基 址 加 界限 机 制 (base and bound) ， 有 时 
又 称 为 动态 重 定 位 (dynamic relocation) ， 我 们 将 互 换 使 用 这 两 个 
术语 [SS74|]。 


具体 来 说 ， 每 个 CPU 需要 两 个 硬件 寄存 器 : 基 址 (base) 寄存 器 和 界限 
(bound) 寄存 器 ， 有 时 称 为 限制 〈limit) 寄存 器 。 这 组 基 址 和 界限 
寄存 器 ， 让 我 们 能 够 将 地 址 空间 放 在 物理 内 存 的 任何 位 置 ， 同 时 又 能 
确保 进程 只 能 访问 自己 的 地 址 空间 。 

采用 这 种 方式 ， 在 编写 和 编译 程序 时 假设 地 址 空间 从 零 开 始 。 但 是 ， 
当 程 序 真 正 执行 时 ， 操 作 系统 会 决定 其 在 物理 内 存 中 的 实际 加 载 地 


址 ， 并 将 起 始 地 址 记录 在 基 址 寄存 器 中 。 在 上 面 的 例子 中 ， 操 作 系统 
决定 加 载 在 物理 地 址 32KB 的 进程 ， 因 此 将 基 址 寄存 器 设置 为 这 个 值 。 


当 进 程 运行 时 ， 有 趣 的 事情 发 生 了 。 现 在 ， 该 进程 产生 的 所 有 内 存 引 
用 ， 都 会 被 处 理 器 通过 以 下 方式 转换 为 物理 地 址 : 


physical address = Virtual address + base 




















补充 : 基于 软件 的 重 定位 


在 早期 ， 在 硬件 支持 重 定位 之 前 ， 一 些 系 统 曾 经 采用 纯 软 件 
的 重 定 位 方式 。 基 本 技术 被 称 为 静态 重 定 位 (static 
relocation) ， 其 中 一 个 名 为 加 载 程序 (loader ) 的 软件 接 
手 将 要 运行 的 可 执行 程序 ， 将 它 的 地 址 重 写 到 物理 内 存 中 期 
望 的 偏 移 位 置 。 




















例如 ， 程 序 中 有 一 条 指令 是 从 地 址 1000 加 载 到 寄存 器 〈 即 
movl 1000，%eax) ， 当 整个 程序 的 地 址 空间 被 加 载 到 从 
3000 〈 不 是 程序 认为 的 0) 开始 的 物理 地 址 中 ， 加 载 程序 会 重 
写 指令 中 的 地 址 〈 即 movl 4000，%eax) ， 从 而 完成 简单 的 静 
态 重 定位 。 


然而 ， 静 态 重 定 位 有 许多 问题 ， 首 先 也 是 最 重要 的 是 不 提供 
访问 保护 ， 进 程 中 的 错误 地 址 可 能 导致 对 其 他 进程 或 操作 系 
统 内 存 的 非法 访问 ， 一 般 来 说 ， 需 要 硬件 支持 来 实现 真正 的 
访问 保护 [WL+93] 。 静 态 重 定位 的 男 一 个 缺点 是 一 旦 完成 ， 稍 
后 很 难 将 内 存 空间 重 定位 到 其 他 位 置 [M65]。 














进程 中 使 用 的 内 存 引 用 都 是 虚拟 地 址 (virtual address) ， 人 硬件 接 下 
来 将 虚拟 地 址 加 上 基 址 寄存 器 中 的 内 容 ， 得 到 物理 地 址 (physical 
address) ， 再 发 给 内 存 系 统 。 


为 了 更 好 地 理解 ， 让 我 们 追踪 一 条 指令 执行 的 情况 。 具 体 来 看 前 面 序 
列 中 的 一 条 指令 : 


128: movl 0x0 (Sebx), Seax 





程序 计数 器 (PC) 首先 被 设置 为 128。 当 硬件 需要 获取 这 条 指令 时 ， 它 
先 将 这 个 值 加 上 基 址 寄存 器 中 的 32KB(32768) ， 得 到 实际 的 物理 地 址 
32896， 然 后 硬件 从 这 个 物理 地 址 获取 指令 。 接 下 来 ， 处 理 器 开始 执行 
该 指令 。 这 时 ， 进 程 发 起 从 虚拟 地 址 15KB 的 加 载 ， 处 理 器 同样 将 虚拟 
地 址 加 上 基 址 寄存 器 内 容 (32KB) ， 得 到 最 终 的 物理 地 址 47KB， 从 而 
获得 需要 的 数据 。 


将 虚拟 地 址 转换 为 物理 地 址 ， 这 正 是 所 谓 的 地 址 转换 (address 
translation) 技术 。 也 就 是 说 ， 便 件 取 得 进程 认为 它 要 访问 的 地 址 ， 
将 它 转换 成 数据 实际 位 于 的 物理 地 址 。 由 于 这 种 重 定 位 是 在 运行 时 发 
生 的 ， 而 且 我 们 甚至 可 以 在 进程 开始 运行 后 改变 其 地 址 空间 ， 这 种 技 
术 一 般 被 称 为 动态 重 定 位 (dynamic relocation) [M65]。 














提示 : 基于 硬件 的 动态 重 定位 


在 动态 重 定位 的 过 程 中 ， 只 有 很 少 的 硬件 参与 ， 但 获得 了 很 
好 的 效果 。 一 个 基 址 寄存 器 将 虚拟 地 址 转换 为 物理 地 址 ， 一 
个 界限 寄存 器 确保 这 个 地 址 在 进程 地 址 空间 的 范围 内 。 它 们 
一 起 提供 了 既 简 单 又 高 效 的 虚拟 内 存 机 制 。 





现在 你 可 能 会 问 ， 界 限 〈 限 制 ) 寄存器 去 哪 了 ? 不 是 基 址 加 界限 机 制 
吗 ? 正如 你 猜测 的 那样 ， 界 限 寄 存 器 提供 了 访问 保护 。 在 上 面 的 例子 
中 ， 界 限 寄存 器 被 置 为 16KB。 如 果 进 程 需 要 访问 超过 这 个 界限 或 者 为 
负数 的 虚拟 地 址 ，CPU 将 触发 异常 ， 进 程 最 终 可 能 被 终止 。 界 限 寄 存 器 
二 





这 种 基 址 寄存 器 配合 界限 寄存 器 的 硬件 结构 是 芯片 中 的 《每 个 CPU 一 
对 ) 。 有 时 我 们 将 CPU 的 这 个 负责 地 址 转换 的 部 分 统称 为 内 存 管理 单元 
(Memory Management Unit，MMU) 。 随 着 我 们 开发 更 复杂 的 内 存 管 理 
技术 ，MMU 也 将 有 更 复杂 的 电路 和 功能 。 


关于 界限 寄存 器 再 补充 一 点 ， 它 通常 有 两 种 使 用 方式 。 在 一 种 方式 中 
〈 像 上 面 那样 ) ， 它 记录 地 址 空间 的 大 小 ， 硬 件 在 将 虚拟 地 址 与 基 址 
寄存 器 内 容 求 和 前 ， 就 检查 这 个 界限 。 吃 一 种 方式 是 界限 寄存 器 中 记 
录 地 址 空间 结束 的 物理 地 址 ， 硬 件 在 转化 虚拟 地 址 到 物理 地 址 之 后 才 
去 检查 这 个 界限 。 这 两 种 方式 在 逻辑 上 是 等 价 的 。 简 单 起 见 ， 我 们 这 
里 假设 采用 第 一 种 方式 。 


转换 示例 





为 了 更 好 地 理解 基 址 加 界限 的 地 址 转换 的 详细 过 程 ， 我 们 来 看 一 个 例 
子 。 设 想 一 个 进程 拥有 4KB 大 小 地 址 空间 (是 的 ， 小 得 不 切实 际 〉》， 它 
被 加 载 到 从 16KB 开 始 的 物理 内 存 中 。 一 些 地 址 转换 结 采 见 表 15. 1。 


表 15.1 地 址 转换 结果 
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从 例子 中 可 以 看 到 ， 通 过 基 址 加 虚拟 地 址 《可 以 看 作 是 地 址 空间 的 介 
移 量 ) 的 方式 ， 很 容易 得 到 物理 地 址 。 虚 拟 地 址 “过 大 ”或 者 为 负数 
时 ， 会 导致 异常 。 








补充 : 数据 结构 一 一 空闲 列表 


操作 系统 必须 记录 哪些 空 采 内 存 没有 使 用 ， 以 便 能 够 为 进程 
分 配 内 存 。 很 多 不 同 的 数据 结构 可 以 用 于 这 项 任务 ， 其 中 最 
简单 的 (也 是 我 们 假定 在 这 里 采用 的 ) 是 空间 列表 (free 
> 。 它 就 是 一 个 列表 ， 记 录 当 前 没有 使 用 的 物理 内 存 的 





15.4 ”硬件 支持 : 总 结 


我 们 来 总 结 一 下 需要 的 硬件 支持 〈 见 表 15.2) 。 首 先 ， 正 如 在 CPU 虚拟 
化 的 章节 中 提 到 的 ， 我 们 需要 两 种 CPU 模式 。 操 作 系 统 在 特权 模式 
(privileged mode， 或 内 核 模 式 ，kernel mode) ， 可 以 访问 整个 机 
器 资源 。 应 用 程序 在 用 户 模 式 (user mode) 运行 ， 只 能 做 有 限 的 操 





作 。 只 要 一 个 位 ， 也 许 保 存在 处 理 器 状态 字 (processor status 
word) 中 ， 就 能 说 明 当 前 的 CPU 运行 模式 。 在 一 些 特殊 的 时 刻 《〈 如 系统 
调用 、 异 常 或 中 断 ) ，CPU 会 切换 状态 。 


表 15. 2 动态 重 定 位 : 硬件 要 求 


硬件 要 求 


特权 模式 需要 ， 以 防 用 户 模式 的 进程 执行 特权 操作 


基 址 /界限 寄存 器 每 个 CPU 需要 一 对 寄存 器 来 文 持 地 址 转换 和 界限 检查 


人 

























修改 基 址 /界限 寄存 器 的 特权 指 “| 在 让 用 户 程序 运行 之 前 ， 操 作 系统 必须 能 够 设置 这 些 值 
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注册 异常 处 理 程序 的 特权 指令 操作 系统 必须 能 告诉 硬件 ， 如 果 异 常 发 生 ， 那 么 执行 哪些 


代码 
能 够 触发 异常 

















如 果 进 程 试图 使 用 特权 指令 或 越界 的 内 存 


硬件 还 必须 提供 基 址 和 界限 寄存 器 (base and bounds register)， 
因此 每 个 CPU 的 内 存 管理 单元 (Memory Management Unit，MMU) 都 需 
要 这 两 个 额外 的 寄存 器 。 用 户 程 序 运 行 时 ， 硬 件 会 转换 每 个 地 址 ， 即 
将 用 户 程序 产生 的 虚拟 地 址 加 上 基 址 寄存 器 的 内 容 。 人 硬件 也 必须 能 检 
查 地 址 是 否 有 用 ， 通 过 界限 寄存 器 和 CPU 内 的 一 些 电路 来 实现 。 


硬件 应 该 提供 一 些 特殊 的 指令 ， 用 于 修改 基 址 寄存 器 和 界限 寄存 器 ， 
允许 操作 系统 在 切换 进程 时 改变 它们 。 这 些 指 令 是 特权 
Cprivileged) 指令 ， 只 有 在 内 核 模 式 下 ， 才 能 修改 这 些 寄存 器 。 想 
象 一 下 ， 如 果 用 户 进程 在 运行 时 可 以 随意 更 改 基 址 寄存 器 ， 那 么 用 户 
进程 可 能 会 造成 严重 破坏 己 -。 想 象 一 下 吧 ! 然后 迅速 将 这 些 阴暗 的 想 
法 从 你 的 头脑 中 赶 走 ， 因 为 它们 很 可 怕 ， 会 导致 性 梦 。 











最 后 ， 在 用 户 程序 党 试 非 法 访问 内 存 〈 越 界 访问 ) 时 ，CPU 必 须 能 够 产 
生 异 常 〈exception) 。 在 这 种 情况 下 ，CPU 应 该 阻止 用 户 程序 的 执 
行 ， 并 安排 操作 系统 的 “越界 ”异常 处 理 程序 (exception handler ) 
去 人 处理。 操作 系统 的 处 理 程序 会 做 出 正确 的 啊 应 ， 比 如 在 这 种 情况 下 
终止 进程 。 类 似 地 ， 如 果 用 户 程 序 尝试 修改 其 址 或 者 界限 寄存 器 时 ， 
CPU 也 应 该 产生 异常 ， 并 调用 “用 户 模 式 尝 试 执行 特权 指令 ”的 异常 处 
理 程序 。CPU 还 必须 提供 一 种 方法 ， 来 通知 它 这 些 处 理 程序 的 位 置 ， 因 
此 又 需要 另 一 些 特权 指令 。 





15.5 操作 系统 的 问题 








为 了 支持 动态 重 定 位 ， 硬 件 添加 了 新 的 功能 ， 使 得 操作 系统 有 了 一 些 
必须 处 理 的 新 间 题 。 硬 件 支持 和 操作 系统 管理 结合 在 一 起 ， 实 现 了 一 
个 简单 的 虚拟 内 存 。 具 体 来 说 ， 在 一 些 关 键 的 时 刻 操作 系统 需要 介 
入 ， 以 实现 基 址 和 界限 方式 的 虚拟 内 存 ， 见 表 15. 3。 


第 一 ， 在 进程 创建 时 ， 操 作 系 统 必 须 采 取 行 动 ， 为 进程 的 地 址 空间 找 
到 内 存 空 间 。 由 于 我 们 假设 每 个 进程 的 地 址 空间 小 于 物理 内 存 的 大 
小 ， 并 且 大 小 相同 ， 这 对 操作 系统 来 说 很 容易 。 它 可 以 把 整个 物理 内 
存 看 作 一 组 槽 块 ， 标 记 了 空间 或 已 用 。 妆 新 进程 创建 时 ， 操 作 系 统 检 
索 这 个 数据 结构 《〈 御 被 称 为 空 亲 列 表 ，free list) ， 为 新 地 址 空间 找 
到 位 置 ， 并 将 其 标记 为 已 用 。 如 果 地 址 空间 可 变 ， 那 么 生活 就 会 更 复 
杂 ， 我 们 将 在 后 续 章 节 中 讨论 。 


我 们 来 看 一 个 例子 。 在 图 15. 2 中 ， 操 作 系 统 将 物理 内 存 的 第 一 个 模块 

分 配给 自己 ， 然 后 将 例子 中 的 进程 重 定 位 到 物理 内 存 地 址 32KB。 另 两 

个 模块 〈16 一 32KB，48 一 64KB) 空闲 ， 因 此 空闲 列表 (free list) 就 
含 这 两 个 模块 。 


第 二 ， 在 进程 终止 时 正常 退出 ， 或 因 行 为 不 端 被 强制 终止 》， 操 作 
系统 也 必须 做 一 些 工作 ， 回 收 它 的 所 有 内 存 ， 给 其 他 进程 或 者 操作 系 
统 使 用 。 在 进程 终止 时 ， 操 作 系 统 会 将 这 些 内 存放 回 到 空闲 列表 ， 并 
根据 需要 清除 相关 的 数据 结构 。 























第 三 ， 在 上 下 文 切换 时 ， 操 作 系统 也 必须 执行 一 些 额 外 的 操作 。 每 个 
CPU 毕竟 只 有 一 个 基 址 寄存 器 和 一 个 界限 寄存 器 ， 但 对 于 每 个 运行 的 程 
序 ， 它 们 的 值 都 不 同 ， 因 为 每 个 程序 被 加 载 到 内 存 中 不 同 的 物理 地 
址 。 因 此 ， 在 切换 进程 时 ， 操 作 系 统 必须 保存 和 恢复 基础 和 界限 寄存 
器 。 有 具体 来 说 ， 当 操作 系统 决定 中 止 当前 的 运行 进程 时 ， 它 必须 将 当 
前 基 址 和 界限 寄存 器 中 的 内 容 保存 在 内 存 中 ， 放 在 某 种 每 个 进程 都 有 
的 结构 中 ， 如 进程 结构 (process structure ) 或 进程 控制 块 
(Process Control Block，PCB) 中。 类 似 地 ， 当 操作 系统 恢复 执行 
0 


























表 15. 3 动态 重 定 位 : 操作 系统 的 职责 


操作 系统 的 要 求 解释 


内 存 管理 需要 为 新 进程 分 配 内 存 
从 终止 的 进程 回收 内 存 


般 通 过 空闲 列表 〈free 1ist) 来 管理 内 存 



























































阳 


基 址 /界限 管理 


需要 注意 ， 当 进程 停止 时 《〈 即 没有 运行 ) ， 操 作 系统 可 以 改变 其 地 址 
空间 的 物理 位 置 ， 这 很 容易 。 要 移动 进程 的 地 址 空间 ， 操 作 系统 首先 
让 进程 停止 运行 ， 然 后 将 地 址 空间 拷贝 到 新 位 置 ， 最 后 更 新 保存 的 基 
址 寄存 器 《在 进程 结构 中 ) ， 指 疝 新 位 置 。 当 该 进程 恢复 执行 时 ， 它 
的 (新 ) 基 址 寄存 器 会 被 恢复 ， 它 再 次 开始 运行 ， 显 然 它 的 指令 和 数 
据 都 在 新 的 内 存 位 置 了 。 


第 四 ， 操 作 系 统 必须 提供 异常 处 理 程序 (exception handler) ， 或 要 
一 些 调用 的 函数 ， 像 上 面 提 到 的 那样 。 操 作 系 统 在 启动 时 加 载 这 些 处 
理 程 序 〈 通 过 特权 命令 ) 。 例 如 ， 当 一 个 进程 试图 越界 访问 内 存 时 ， 
CPU 会 触发 异常 。 在 这 种 异常 产生 时 ， 操 作 系 统 必须 准备 采取 行动 。 通 
常 操作 系统 会 做 出 充满 敌意 的 反应 : 终止 错误 进程 。 操 作 系 统 应 该 尽 


必须 在 上 下 文 切换 时 正确 设置 基 址 /界限 寄存 器 





























当 异 常 发 生 时 执行 的 代码 ， 可 能 的 动作 是 终止 犯错 的 进程 











力 保护 它 运 行 的 机 器 ， 因 此 它 不 会 对 那些 企图 访问 非法 地 址 或 执行 非 
法 指令 的 进程 客气 。 再 见 了 ， 行 为 不 端的 进程 ， 很 高 兴 认识 你 。 


表 15. 4 为 按时 间 线 展示 了 大 多 数 硬件 与 操作 系统 的 交互 。 可 以 看 出 ， 
操作 系统 在 启动 时 做 了 什么 ， 为 我 们 准备 好 机 器 ， 然 后 在 进程 (进程 
A) 开始 运行 时 发 生 了 什么 。 请 注意 ， 地 址 转换 过 程 完全 由 硬件 处 理 ， 
没有 操作 系统 的 介入 。 在 这 个 时 候 ， 发 生 时 钟 中 断 ， 操 作 系 统 切 换 到 
进程 B 运 行 ， 它 执行 了 “错误 的 加 载 ”〔 对 一 个 非法 内 存 地 址 ) ， 这 时 
操作 系统 必须 介入 ， 终 止 该 进程 ， 清 理 并 释放 进程 B 占 用 的 内 存 ， 将 它 
从 进程 表 中 移 除 。 从 表 中 可 以 看 出 ， 我 们 仍然 遵循 受 限 直接 访问 
(limited direct execution) 的 基本 方法 ， 大 多 数 情况 下 ， 操 作 系 
就 任 任 进程 直接 运行 在 CPU 上 ， 只 有 进程 行为 不 端 
时 二 J 入 








表 15.4 受 限 直接 执行 协议 (动态 重 定位 ) 





操作 系统 @ 启 动 〈 内 核 模 式 ) 硬件 


记 住 以 下 地 址 : 
系统 调用 处 理 程序 
时 钟 处 理 程序 
非法 内 存 处 理 程 序 
非常 指令 处 理 程 序 


























由 时 


开始 时 钟 ， 在 x ms 后 中 断 
间 人 化 全 天 














| 





操作 系统 6 运行 《核心 模式 ) 


为 了 启动 进程 A: 
在 进程 表 中 分 配 条 目 

















为 进程 分 配 内 存 
设置 基 址 /界限 寄存 器 
从 陷阱 返回 〈 进 入 A) 


恢复 A 的 寄存 器 
转身 用 户 模 式 
跳 到 A《〈 最 初 ) 的 程序 计数 器 





如 果 显 式 加 载 /保存 
确保 地 址 不 越界 


转换 虚拟 地 址 并 执行 
加 载 /保存 





时 钟 中 断 
转向 内 核 模式 
跳 到 中 断 处 理 程序 





























续 表 


处 理 陷 阱 

调用 switch () 例 程 
将 寄存 器 (A) 保存 到 进程 结构 (A) 
(包括 基 址 /界限 ) 
从 进程 结构 (B) 恢复 寄存 器 (B) 
(包括 基 址 /界限 ) 

从 陷阱 返回 (进入 B) 











| 


| 
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量 和 A 去 行 


获取 指令 


兰 
旱 
> 
加 


行 指令 


i 





恢复 B 的 寄存 器 
转向 用 户 模式 
加 国 
转向 内 核 模式 

跳 到 陷阱 处 理 程序 
处 理 本 期 报告 

决定 终止 进程 B 
可 收 B 的 内 存 
移 除 B 在 进程 表 中 的 条 目 


15.6 小 结 
















让 运行 
执行 错误 的 加 载 





加 载 越界 























本 章 通 过 虚拟 内 存 使 用 的 一 种 特殊 机 制 ， 即 地 址 转换 (address 
translation) ， 扩 展 了 受 限 直接 访问 的 概念 。 利 用 地 址 转换 ， 操作 系 
统 可 以 控制 进程 的 所 有 内 存 访 问 ， 确保 访问 在 地 址 空间 的 界限 内 。 这 
个 技术 高 效 的 关键 是 硬件 支持 ， 硬 件 快 速 地 将 所 有 内 存 访问 操作 中 的 
虚拟 地 址 (进程 自己 看 到 的 内 存 位 置 ) 转换 为 物理 地 址 (实际 位 
置 ) 。 所 有 的 这 一 切 对 进程 来 说 都 是 透明 的 ， 进 程 并 不 知道 自己 使 用 
的 内 存 引 用 已 经 被 重 定位 ， 制 造 了 美妙 的 假象 。 


我 们 还 看 到 了 一 种 特殊 的 虚拟 化 方式 ， 称 为 基 址 加 界限 的 动态 重 定 
位 。 基 址 加 界限 的 虚拟 化 方式 非常 高 效 ， 因 为 只 需要 很 少 的 硬件 逻 
辑 ， 就 可 以 将 虚拟 地 址 和 基 址 寄存 器 加 起 来 ， 并 检查 进程 产生 的 地 址 
没有 越界 。 基 址 加 界限 也 提供 了 保护 ， 操 作 系统 和 硬件 的 协作 ， 确 保 
没有 进程 能 够 访问 其 地 址 空间 之 外 的 内 容 。 保 护 表 定 是 操作 系统 最 重 
要 的 目标 之 一 。 没 有 保护 ， 操 作 系 统 不 可 能 控制 机 器 〈 如 果 进 程 可 以 
随意 修改 内 存 ， 它 们 就 可 以 轻松 地 做 出 可 怕 的 事情 ， 比 如 重 写 陷阱 表 
并 完全 接管 系统 ) 。 


























遗憾 的 是 ， 这 个 简单 的 动态 重 定位 技术 有 效率 低下 的 问题 。 例 如 ， 从 
图 15.2 中 可 以 看 到 ， 重 定位 的 进程 使 用 了 从 32KB 到 48KB 的 物理 内 存 ， 
但 由 于 该 进程 的 栈 区 和 堆 区 并 不 很 大 ， 导 致 这 块 内 存 区 域 中 大 量 的 空 
间 被 浪费 。 这 种 浪费 通常 称 为 内 部 保 片 ( internal 
fragmentation) ， 指 的 是 已 经 分 配 的 内 存单 元 内 部 有 未 使 用 的 空间 
( 即 雄 片 》， 造 成 了 浪费 。 在 我 们 当前 的 方式 中 ， 即 使 有 尼 够 的 物理 
内 存 容纳 更 多 进程 ， 但 我 们 目前 要 求 将 地 址 空间 放 在 固定 大 小 的 模块 
中 ， 因 此 会 出 现 内 部 碎片 /站 。 所 以 ， 我 们 需要 更 复杂 的 机 制 ， 以 便 更 
好 地 利用 物理 内 存 ， 避 人 免 内 部 碎片 。 第 一 次 尝试 是 将 基 址 加 界限 的 概 
念 稍稍 泛 化 ， 得 到 分 段 (segmentation)〉 的 概念 ， 我 们 接 下 来 将 讨 


论 。 
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作业 


程序 relocation. py 让 你 看 到 ， 在 带 有 基 址 和 边界 寄存 器 的 系统 中 ， 如 
何 执行 地 址 转换 。 详 情 请 参阅 README 文 件 。 


问题 


1. 用 种 子 1、2 和 3 运行 ， 并 计算 进程 生成 的 每 个 虚拟 地 址 是 处 于 界限 
内 还 是 界限 外 ?如 果 在 界限 内 ， 请 计算 地 址 转换 。 


2. 使 用 以 下 标志 运行 : -s 0 -na 10。 为 了 确保 所 有 生成 的 虚拟 地 址 都 
处 于 边界 内 ， 要 将 -1〈 界 限 寄存 器 ) 设置 为 什么 值 ? 


3. 使 用 以 下 标志 运行 : -s 1 -n 10 -1 100。 可 以 设置 界限 的 最 大 值 
是 多 少 ， 以 便 地 址 空间 仍然 完全 帮 在 物理 内 存 中 ? 


运行 和 第 3 题 相同 的 操作 ， 但 使 用 较 大 的 地 址 空间 (-a) 和 物理 内 
子 (=-p) 。 


5. 作为 边界 寄存 器 的 值 的 函数 ， 随 机 生成 的 虚拟 地 址 的 哪 一 部 分 是 有 
nn 


[1 除了 “严重 破坏 (havoc ) ”还 有 什么 可 以 “造成 
(wreaked) ”的 吗 ? 


[2]， 男 一 种 解决 方案 可 能 会 在 地 址 空间 内 放置 一 个 固定 大 小 的 栈 ， 位 
于 代码 区 域 的 下 方 ， 并 在 栈 下 面 让 堆 增 长 。 但 是 ， 这 限制 了 灵活 性 ， 
让 递归 和 深层 内 套 函数 调用 变 得 具有 挑战 ， 因 此 我 们 希望 避免 这 种 情 
况 。 





第 16 章 “分 段 


到 目前 为 止 ， 我 们 一 直 假 设 将 所 有 进程 的 地 址 空间 完整 地 加 载 到 内 存 
中 。 利 用 基 址 和 界限 寄存 器 ， 操 作 系统 很 容易 将 不 同 进程 重 定位 到 不 
同 的 物理 内 存 区 域 。 但 是 ， 对 于 这 些 内 存 区 域 ， 你 可 能 已 经 注意 到 一 
件 有 趣 的 事 : 栈 和 堆 之 间 ， 有 一 大 块 “ 空 ”空间 。 


从 图 16. 1 中 可 知 ， 如 果 我 们 将 整个 地 址 空间 放 入 物理 内 存 ， 那 么 栈 和 
堆 之 间 的 空间 并 没有 被 进程 使 用 ， 却 依然 占用 了 实际 的 物理 内 存 。 因 
此 ， 简 单 的 通过 基 址 寄存 占 和 界限 寄存 器 实现 的 虚拟 内 存 很 浪费 。 男 
外 ， 如 果 剩 余 物 理 内 存 无 法 提供 连续 区 域 来 放置 完整 的 地 址 空间 ， 进 
0 
活 。 因 此 : 











关键 问题 : 怎样 支持 大 地 址 空间 


怎样 支持 大 地 址 空间 ， 同 时 栈 和 堆 之 间 (可 能 ) 有 大 量 空间 
空间 ? 在 之 前 的 例子 里 ， 地 址 空间 非常 小 ， 所 以 这 种 浪费 并 
不 明显 。 但 设想 一 个 32 位 (46B)〉 的 地 址 空间 ， 通 常 的 程序 只 
会 使 用 几 兆 的 内 存 ， 但 需要 整个 地 址 空间 都 放 在 内 存 中 。 








16.1 分 段 : 泛 化 的 基 址 /界限 


为 了 解决 这 个 问题 ， 分 段 (segmentation) 的 概念 应 运 而 生 。 分 段 并 
不 是 一 个 新 概念 ， 它 甚至 可 以 追溯 到 20 世 纪 60 年 代 初期 [H61，662]。 
这 个 想法 很 简单 ， 在 MMU 中 引入 不 止 一 个 基 址 和 界限 寄存 器 对 ， 而 是 给 
地 址 空间 内 的 每 个 逻辑 段 (segment ) 一 对 。 一 个 段 只 是 地 址 空间 里 的 
一 个 连续 定 长 的 区 域 ， 在 典型 的 地 址 空间 里 有 3 个 逻辑 不 同 的 段 ， 代 





码 、 栈 和 堆 。 分 段 的 机 制 使 得 操作 系统 能 够 将 不 同 的 段 放 到 不 同 的 物 
从 而 避免 了 虚拟 地 址 空间 中 的 未 使 用 部 分 占用 物理 内 
年 。 


我 们 来 看 一 个 例子 。 假 设 我 们 希望 将 图 16. 1 中 的 地 址 空间 放 入 物理 内 
存 。 通 过 给 每 个 段 一 对 基 址 和 界限 寄存 器 ， 可 以 将 每 个 段 独立 地 放 入 
如 图 16. 2 所 示 ，64KB 的 物理 内 存 中 放置 了 3 个 段 〈 为 操作 系 
统 保留 16KB) 。 
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图 16. 1 一 个 地 址 空间 〈 复 习 ) 
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图 16. 2 在 物理 内 存 中 放置 段 


从 图 中 可 以 看 到 ， 只 有 已 用 的 内 存 才 在 物理 内 存 中 分 配 空间 ， 因 此 可 
以 容纳 巨大 的 地 址 空间 ， 其 中 包含 大 量 未 使 用 的 地 址 空间 (有 时 又 称 
为 稀疏 地 址 空间 ，sparse address spaces) 。 




















你 会 想到 ， 需 要 MMU 中 的 硬件 结构 来 支持 分 断 ， 在 这 种 情况 下 ， 需 要 一 
组 3 对 基 址 和 界限 寄存 器 。 表 16. 1 展示 了 上 面 的 例子 中 的 寄存 器 值 ， 
每 个 界限 寄存 器 记录 了 一 个 段 的 大 小 。 


表 16. 1 段 寄 存 器 的 值 














如 表 16. 1 所 示 ， 代 码 段 放 在 物理 地 址 32KB， 大 小 是 2KB。 堆 在 34KB， 大 
小 也 是 2KB。 


利用 图 16. 1 中 的 地 址 空间 ， 我 们 来 看 一 个 地 址 转换 的 例子 。 假 设 现在 
要 引用 虚拟 地 址 100 (在 代码 段 中 ) ，MMU 将 基 址 值 加 上 偏 移 量 (100) 
得 到 实际 的 物理 地 址 : 100 + 32KB = 32868。 然 后 它 会 检查 该 地 址 是 
否 在 界限 内 (100 小 于 2KB〉， 发 现 是 的 ， 于 是 友 起 对 物理 地 址 32868 的 
引用 。 


补充 : 段 错误 


段 错误 指 的 是 在 支持 分 段 的 机 器 上 发 生 了 非法 的 内 存 访 问 。 
有 趣 的 是 ， 即 使 在 不 支持 分 段 的 机 器 上 这 个 术语 依然 保留 。 
但 如 果 你 乔 不 清楚 为 什么 代码 老 是 出 错 ， 就 没 那么 有 趣 了 。 


来 看 一 个 堆 中 的 地 址 ， 虚 拟 地 址 4200 (同样 参考 图 16. 1) 。 如 果 用 虚 
拟 地 址 4200 加 上 堆 的 基 址 (34KB) ， 得 到 物理 地 址 39016， 这 不 是 正确 
的 地 址 。 我 们 首先 应 该 先 减 去 堆 的 偏 移 量 ， 即 该 地 址 指 的 是 这 个 段 中 


的 哪个 字 节 。 因 为 堆 从 虚拟 地 址 药 〈4096) 开始 ，4200 的 偏 移 量 实际 
上 是 4200 减 去 4096， 即 104， 然 后 用 这 个 偏 移 量 (104) 加 上 基 址 寄存 
器 中 的 物理 地 址 〈34KB) ， 得 到 真正 的 物理 地 址 34920。 


如 果 我 们 试图 访问 非法 的 地 址 ， 例 如 7KB， 它 超出 了 堆 的 边界 呢 ? 你 可 
以 想象 发 生 的 情况 : 硬件 会 发 现 该 地 址 越界 ， 因 此 陷入 操作 系统 ， 很 
可 能 导致 终止 出 错 进 程 。 这 就 是 每 个 C 程 序 员 都 感到 狼 民 的 术语 的 来 
源 : 段 异 常 (segmentation violation ) 或 段 错误 (segmentation 
fault) 。 


16. 2 我 们 引用 哪个 段 


硬件 在 地 址 转换 时 使 用 段 寄存 器 。 它 如 何 知道 段 内 的 偏 移 量 ， 以 及 地 
址 引用 了 哪个 段 ? 


一 种 常见 的 方式 ， 有 时 称 为 显 式 (explicit) 方式 ， 就 是 用 虚拟 地 址 
的 开头 几 位 来 标识 不 同 的 段 ，VAX/VMS 系 统 使 用 了 这 种 技术 [LL82] 。 在 


我 们 之 前 的 例子 中 ， 有 3 个 段 ， 因 此 需要 两 位 来 标识 。 如 有 果 我 们 用 14 位 
虚拟 地 址 的 前 两 位 来 标识 ， 那 么 虚拟 地 址 如 下 所 示 : 


[52 和 必 












段 仿 移 量 


那么 在 我 们 的 例子 中 ， 如 果 前 两 位 是 00， 人 硬件 就 知道 这 是 属于 代码 段 
的 地 址 ， 因 此 使 用 代码 段 的 基 址 和 界限 来 重 定位 到 正确 的 物理 地 址 。 
如 果 前 两 位 是 01， 则 是 堆 地 址 ， 对 应 地 ， 使 用 堆 的 基 址 和 界限 。 下 面 
来 看 一 个 4200 之 上 的 堆 虚 拟 地 址 ， 进 行进 制 转 换 ， 确 保 弄 清楚 这 些 内 
容 。 虚 拟 地 址 4200 的 二 进 制 形 式 如 下 : 


从 图 中 可 以 看 到 ， 前 两 位 〈01) 告诉 硬件 我 们 引用 哪个 段 。 剩 下 的 12 
位 是 段 内 偏 移 : 0000 0110 1000“〈 即 十 六 进 制 0x068 或 十 进 制 104) 。 
因此 ， 硬 件 就 用 前 两 位 来 决定 使 用 哪个 段 寄 存 器 ， 然 后 用 后 12 位 作为 
段 内 偏 移 。 偏 移 量 与 基 址 寄存 器 相 加 ， 硬 件 就 得 到 了 最 终 的 物理 地 
址 。 请 注意 ， 偏 移 量 也 简化 了 对 上段 边界 的 判断 。 我 们 只 要 检查 偏 移 量 
是 否 小 于 界限 ， 大 于 界限 的 为 非法 地 址 。 因 此 ， 如 果 基 址 和 界限 放 在 
0 项 ) ， 为 了 获得 需要 的 物理 地 址 ， 硬 件 会 做 下 面 这 




















// get top 2 bits of 14-bit VA 
Segment = (VirtualAddress & SEG MASK) >> SEG SHIFT 
// now get offset 
Offset = VirtualAddress & OFFSET MASK 
if (Offset >= Bounds[Segment]) 
RaiseException (PROTECTION FAULT) 














else 


WOJOUNA WOOP 





PhysAddr = Base[Segment] + Offset 
Register = AccessMemory (PhysAddr) 





在 我 们 的 例子 中 ， 可 以 为 上 面 的 常量 填 上 值 。 具 体 来 说 ，SEG_MASK 为 
0x3000，SEG_SHIFT 为 12，OFFSET_MASK 为 OxFFF。 


你 或 许 已 经 注意 到 ， 上 面 使 用 两 位 来 区 分 段 ， 但 实际 只 有 3 个 段 〈 代 
码 、 堆 、 栈 ) ， 因 此 有 一 个 段 的 地 址 空间 被 浪费 。 因 此 有 些 系统 中 会 
将 堆 和 栈 当 作 同一 个 段 ， 因 此 只 需要 一 位 来 做 标识 [LL82]。 


人 硬件 还 有 其 他 方法 来 决定 特定 地 址 在 哪个 段 。 在 隐 式 (implicit) 方 
式 中 ， 硬 件 通 过 地 址 产生 的 方式 来 确定 段 。 例 如 ， 如 果 地 址 由 程序 计 
数 器 产生 ( 即 它 是 指令 获取 〉 ， 那 么 地 址 在 代码 段 。 如 果 基 于 栈 或 基 
址 指针 ， 它 一 定 在 栈 段 。 其 他 地 址 则 在 堆 段 。 














16.3 栈 怎 么 办 


到 目前 为 止 ， 我 们 一 直 没 有 讲 地 址 空间 中 的 一 个 重要 部 分 : 栈 。 在 表 
16. 1 中 ， 栈 被 重 定位 到 物理 地 址 28KB。 但 有 一 点 关键 区 别 ， 它 反 向 增 
长 。 在 物理 内 存 中 ， 它 始 于 28KB， 增 长 回 到 26KB， 相 应 虚拟 地 址 从 
16KB 到 14KB。 地 址 转换 必须 有 所 不 同 。 


首先 ， 我 们 需要 一 点 硬件 支持 。 除 了 基 址 和 界限 外 ， 硬 件 还 需要 知道 
段 的 增长 方向 (用 一 位 区 分 ， 比 如 1 代表 自 小 而 大 增长 ，0 反 之 )。 在 
表 16. 2 中 ， 我 们 更 新 了 硬件 记录 的 视图 。 


表 16. 2 段 寄存 器 (支持 反 向 增长 ) 


i how oe | 
hw le | 
le be | 


便 件 理解 段 可 以 有 反问 增长 后 ， 这 种 虚拟 地 址 的 地 址 转换 必须 有 后 不 
同 。 下 面 来 看 一 个 栈 虚拟 地 址 的 例子 ， 将 它 进行 转换 ， 以 理解 这 个 过 


程 : 


在 这 个 例子 中 ， 假 设 要 访问 虚拟 地 址 15KB， 它 应 该 映射 到 物理 地 址 
27KB 。 该 虚拟 地 址 的 二 进 制 形式 是 : 11 1100 0000 0000 十 六 进 制 
0x3C00) 。 硬 件 利用 前 两 位 (11) 来 指定 段 ， 但 然后 我 们 要 处 理 偏 移 
量 3KB。 为 了 得 到 正确 的 反 向 偏 移 ， 我 们 必须 从 3KB 中 减 去 最 大 的 段 地 
址 : 在 这 个 例子 中 ， 段 可 以 是 4KFB， 因 此 正确 的 偏 移 量 是 3KB 减 去 4KB， 
即 一 1KB。 只 要 用 这 个 反 向 偏 移 量 (一 1KB)〉 加 上 基 址 (28KB) ， 就 得 到 
了 正确 的 物理 地 址 27KB。 用 户 可 以 进行 界限 检查 ， 确 保 反 向 偏 移 量 的 
绝对 值 小 于 段 的 大 小 。 











16.4 支持 共享 





随 独 分 段 机 制 的 不 断 改 进 ， 系 统 设 计 人 员 很 快意 识 到 ， 通 过 再 多 一 点 
的 硬件 支持 ， 就 能 实现 新 的 效率 提升 。 具 体 来 说 ， 要 节省 内 存 ， 有 时 
候 在 地 址 空间 之 间 共 享 〈share) 茶 些 内 存 段 是 有 用 的 。 尤 其 是 ， 代 码 
共享 很 常见 ， 今 天 的 系统 仍然 在 使 用 。 


为 了 支持 共享 ， 需 要 一 些 额 外 的 硬件 支持 ， 这 就 是 保护 位 
(protection bit) 。 基 本 为 每 个 段 增 加 了 几 个 位 ， 标 识 程序 是 否 能 
够 读 写 该 段 ， 或 执行 其 中 的 代码 。 通 过 将 代码 段 标记 为 只 读 ， 同 样 的 
代码 可 以 被 多 个 进程 共享 ， 而 不 用 担心 破坏 隔离 。 虽 然 每 个 进程 都 认 
为 自己 独占 这 块 内 存 ， 但 操作 系统 秘密 地 共享 了 内 存 ， 进 程 不 能 修改 
这 些 内 存 ， 所 以 假象 得 以 保持 。 

表 16. 3 展示 了 一 个 例子 ， 是 硬件 (和 操作 系统 ) 记录 的 额外 信息 。 可 
以 看 到 ， 代 码 段 的 权限 是 可 读 和 可 执行 ， 因 此 物理 内 存 中 的 一 个 段 可 
以 映射 到 多 个 虚拟 地 址 空间 。 


表 16.3 段 寄 存 器 的 值 (有 保护 》 


hoe ln ea 
ol ks 


有 了 保护 位 ， 前 面 描述 的 硬件 算法 也 必须 改变 。 除 了 检查 虚拟 地 址 是 
否 越 界 ， 硬 件 还 需要 检查 特定 访问 是 否 允 许 。 如 果 用 户 进 程 试图 写 入 
0 
理 出 错 进 程 。 
































16.5 细 粒 度 与 粗 粒 度 的 分 段 


到 目前 为 止 ， 我 们 的 例子 大 多 针对 只 有 很 少 的 几 个 段 的 系统 〈 即 代 
码 、 栈 、 堆 ) 。 我 们 可 以 认为 这 种 分 段 是 粗 粒 度 的 〈coarse- 
grained) ， 因 为 它 将 地 址 空间 分 成 较 大 的 、 粗 粒度 的 块 。 但 是 ， 一 些 
早期 系统 (如 Multics[CV65，DD68] ) 更 灵活 ， 人 允许 将 地 址 空间 划分 为 
大 量 较 小 的 段 ， 这 被 称 为 细 粒 度 (fine-grained) 分 段 。 


支持 许多 有 段 需要 进一步 的 硬件 支持 ， 并 在 内 存 中 保存 某 种 段 表 
(segment table) 。 这 种 段 表 通常 文 持 创建 非常 多 的 段 ， 因 此 系统 使 
用 段 的 方式 ， 可 以 比 之 前 讨论 的 方式 更 灵活 。 例 如 ， 像 Burroughs 
B5000 这 样 的 早期 机 器 可 以 支持 成 干 上 万 的 段 ， 有 了 操作 系统 和 硬件 的 
支持 ， 编 译 器 可 以 将 代码 段 和 数据 段 划 分 为 许多 不 同 的 部 分 LRK68]。 
当时 的 考虑 是 ， 通 过 更 细 粒 度 的 段 ， 操 作 系 统 可 以 更 好 地 了 解 哪些 段 
在 使 用 哪些 没有 ， 从 而 可 以 更 高 效 地 利用 内 存 。 


16.6 操作 系统 支持 











现在 你 应 该 大 致 了 解 了 分 段 的 基本 原理 。 系 统 运行 时 ， 地 址 空间 中 的 
不 同 段 被 重 定位 到 物理 内 存 中 。 与 我 们 之 前 介绍 的 整个 地 址 空间 只 有 
一 个 基 址 /界限 寄存 器 对 的 方式 相 比 ， 大 量 节 省 了 物理 内 存 。 具 体 来 
说 ， 栈 和 堆 之 间 没 有 使 用 的 区 域 就 不 需要 再 分 配 物 理 内 存 ， 让 我 们 能 
将 更 多 地 址 空间 放 进 物理 内 存 。 


然而 ， 分 段 也 带 来 了 一 些 新 的 问题 。 我 们 先 介绍 必须 关注 的 操作 系统 
新 问题 。 第 一 个 是 老 问 题 : 操作 系统 在 上 下 文 切换 时 应 该 做 什么 ? 你 
可 能 已 经 猜 到 了 : 各 个 段 寄 存 器 中 的 内 容 必须 保存 和 恢复 。 显 然 ， 每 
个 进程 都 有 自己 独立 的 虚拟 地 址 空间 ， 操 作 系 统 必须 在 进程 运行 前 ， 
确保 这 些 寄 存 器 被 正确 地 赋值 。 


第 二 个 问题 更 重要 ， 即 管理 物理 内 存 的 空闲 空间 。 新 的 地 址 空间 被 创 
建 时 ， 操 作 系统 需要 在 物理 内 存 中 为 它 的 段 找到 空间 。 之 前 ， 我 们 假 
设 所 有 的 地 址 空间 大 小 相同 ， 物 理 内 存 可 以 被 认为 是 一 些 槽 块 ， 进 程 

















可 以 放 进 去 。 现 在 ， 每 个 进程 都 有 一 些 段 ， 每 个 段 的 大 小 也 可 能 不 


jo 


一 般 会 遇 到 的 问题 是 ， 物 理 内 存 很 快 充 满 了 许多 空闲 空间 的 小 洞 ， 
而 很 难 分 配给 新 的 段 ， 或 扩大 已 有 的 段 。 这 种 问题 被 称 为 外 部 碎片 
(external fragmentation) [R69]， 如 图 16.3 左边 ) 所 示 。 


非 么 次 的 毗 普 的 
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8KB | 操作 系统 操作 系统 
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图 16. 3 非 紧凑 和 紧凑 的 内 存 
在 这 个 例子 中 ， 一 个 进程 需要 分 配 一 个 20KB 的 段 。 当 前 有 24KB 空 闲 ， 
但 并 不 连续 〈 是 3 个 不 相 邻 的 块 ) 。 因 此 ， 操 作 系 统 无 法 满足 这 个 20KB 
的 请 求 。 


该 问题 的 一 种 解决 方案 是 紧凑 (compact) 物理 内 存 ， 重 新 安排 原 有 的 
段 。 例 如 ， 操 作 系 统 先 终止 运行 的 进程 ， 将 它们 的 数据 复制 到 连续 的 
内 存 区 域 中 去 ， 改 变 它 们 的 段 寄 存 器 中 的 值 ， 指 向 新 的 物理 地 址 ， 从 
而 得 到 了 足够 大 的 连续 空闲 空间 。 这 样 做 ， 操 作 系 统 能 让 新 的 内 存 分 
配 请 求 成 功 。 但 是 ， 内 存 紧凑 成 本 很 高 ， 因 为 揽 贝 段 是 内 存 密 集 型 
ee 


一 种 更 简单 的 做 法 是 利用 空闲 列表 管理 算法 ， 试 图 保留 大 的 内 存 块 用 
于 分 配 。 相 关 的 算法 可 能 有 成 百 上 千 种 ， 包 括 传统 的 最 优 匹 配 (best- 
fit， 从 空闲 链表 中 找 最 接近 需要 分 配 空间 的 空 亲 块 返回 ) 、 最 坏 匹 配 
(worst-fit) 、 首 次 匹配 (first-fit) 以 及 像 伙伴 算法 (buddy 
algorithm) [K68] 这样 更 复杂 的 算法 。Wilson 等 人 做 过 一 个 很 好 的 调 
查 [W+95] ， 如 果 你 想 对 这 些 算法 了 解 更 多 ， 可 以 从 它 开 始 ， 或 者 等 到 
第 17 章 ， 我 们 将 介绍 一 些 基 本 知识 。 但 遗憾 的 是 ， 无 论 算法 多 么 精 
妙 ， 都 无 法 完全 消除 外 部 碎片 ， 因 此 ， 好 的 算法 只 是 试图 减 小 它 。 








提示 : 如 果 有 一 干 个 解决 方案 ， 就 没有 特别 好 的 


存在 如 此 多 不 同 的 算法 来 尝试 减少 外 部 雁 片 ， 正 说 明了 解决 
这 个 问题 没有 最 好 的 办 法 。 因 此 我 们 满足 于 找到 一 个 合理 的 
足够 好 的 方案 。 唯 一 真正 的 解决 办 法 就 是 (我 们 会 在 后 续 章 
0 
子 块 。 





16.7 小 结 


分 段 解决 了 一 些 问题 ， 帮 助 我 们 实现 了 更 高 效 的 虚拟 内 存 。 不 只 是 动 
态 重 定 位 ， 通 过 避免 地 址 空间 的 逻辑 段 之 间 的 大 量 潜在 的 内 存 浪 费 ， 
分 段 能 更 好 地 文 持 稀 玻 地 址 空间 。 它 还 很 快 ， 因 为 分 段 要 求 的 算法 很 
容易 ， 很 适合 硬件 完成 ， 地 址 转换 的 开销 极 小 。 分 段 还 有 一 个 附加 的 


好 处 : 代码 共享 。 如 果 代码 放 在 独立 的 段 中 ， 这 样 的 段 就 可 能 被 多 个 
运行 的 程序 共享 。 


但 我 们 已 经 知道 ， 在 内 存 中 分 配 不 同 大 小 的 段 会 导致 一 些 问题 ， 我 们 
硕 望 死 服 。 首 先 ， 是 我 们 上 面 讨论 的 外 部 碎片 。 由 于 段 的 大 小 不 同 ， 
空 采 内 存 被 割裂 成 各 种 奇怪 的 大 小 ， 因 此 满足 内 存 分 配 请 求 可 能 会 很 
难 。 用 户 可 以 尝试 采 用 聪明 的 算法 [W+95]， 或 定期 紧凑 内 存 ， 但 问题 
很 根本 ， 难 以 避免 。 


第 二 个 问题 也 许 更 重要 ， 分 段 还 是 不 足以 支持 更 一 般 化 的 稀 琉 地 址 空 
间 。 例 如 ， 如 果 有 一 个 很 大 但 是 稀 跑 的 堆 ， 部 在 一 个 逻辑 段 中 ， 整 个 
堆 仍 然 必须 完整 地 加 载 到 内 存 中 。 换 言 之 ， 如 果 使 用 地 址 空间 的 方式 
不 能 很 好 地 匹配 底层 分 段 的 设计 目标 ， 分 段 就 不 能 很 好 地 工作 。 因 此 
我 们 需要 找到 新 的 解决 方案 。 你 准备 好 了 吗 ? 
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作业 





该 程序 允许 你 查看 在 具有 分 段 的 系统 中 如 何 执行 地 址 转换 。 详 情 请 参 
阅 README 文 件 。 


问题 


1 先 让 我 们 用 一 个 小 地 址 空间 来 转换 一 些 地 址 。 这 里 有 一 组 简单 的 参 
数 和 几 个 不 同 的 随机 种 子 。 你 可 以 转换 这 些 地 址 吗 ? 


segmentation.py -a 128 -p 512 -b 0 -1 20 -B 512 -L 20 -s 1 
segmentation.py -a 128 -Pb 512 -b 0 -1 20 -B 512 -L 20 -s 2 





2. 现在 ， 让 我 们 看 看 是 否 理 解 了 这 个 构建 的 小 地 址 空间 (使 用 上 面 问 
题 的 参数 ) 。 段 0 中 最 高 的 合法 虚拟 地 址 是 什么 ? 段 1 中 最 低 的 合法 虚 
拟 地 址 是 什么 ? 在 整个 地 址 空间 中 ， 最 低 和 最 高 的 非法 地 址 是 什么 ? 
最 后 ， 如 何 运 行 带 有 -A 标志 的 segmentation. py 来 测试 你 是 否 正确 ? 


3. 假设 我 们 在 一 个 128 字 节 的 物理 内 存 中 有 一 个 很 小 的 16 字 节 地 址 空 
间 。 你 会 设置 什么 样 的 基 址 和 界限 ， 以 便 让 模拟 器 为 指定 的 地 址 流 生 
~ 有 效 ， 有 有效， 违规， 违反， 有效， 有 效 ? 假设 用 以 
下 参数 : 


=A 07li2r3.4d4756; 1787 97l10711l7r1l2;131L4;15 
==B0 2? ==10 ? ==bB1 2 ==11 2 


4. 假设 我 们 想 要 生成 一 个 问题 ， 其 中 大 约 90% 的 随机 生成 的 虚拟 地 址 
是 有 效 的 ( 即 不 产生 段 异常 )。 你 应 该 如 何 配置 模拟 器 来 做 到 这 一 
点 ? 哪些 参数 很 重要 ? 


5. 你 可 以 运行 模拟 器 ， 使 所 有 虚拟 地 址 无 效 吗 ? 怎么 做 到 ? 


第 17 章 ”空闲 空间 管理 


本 章 暂 且 将 对 虚拟 内 存 的 讨论 放 在 一 边 ， 来 讨论 所 有 内 存 管理 系统 的 
一 个 基本 方面 ， 无 论 是 malloc 库 〈 管 理 进程 中 堆 的 页 ) ， 还 是 操作 系 
统 本 身 〈 管 理 进程 的 地 址 空间 ) 。 有 具 体 来 说 ， 我 们 会 讨论 空闲 空间 管 


理 (free-space management ) 的 一 些 问题 。 


让 问题 更 明确 一 点 。 管 理 空 闲 空间 当然 可 以 很 容易 ， 我 们 会 在 讨论 分 
页 概念 时 看 到 。 如 果 需 要 管理 的 空间 被 划分 为 固定 大 小 的 单元 ， 就 很 
容易 。 在 这 种 情况 下 ， 只 需要 维护 这 些 大 小 固定 的 单元 的 列表 ， 如 果 
有 请 求 ， 就 返回 列表 中 的 第 一 项 。 


如 果 要 管理 的 空闲 空间 由 大 小 不 同 的 单元 构成 ， 管 理 就 变 得 困难 《而 
且 有 趣 ) 。 这 种 情况 出 现在 用 户 级 的 内 存 分 配 库 《如 malloc( 和 














free() ) ， 或 者 操作 系统 用 分 段 (segmentation) 的 方式 实现 虚拟 内 
存 。 在 这 两 种 情况 下 ， 出 现 了 外 部 肆 片 (external fragmentation ) 
的 问题 : 空闲 空间 被 分 割 成 不 同 大 小 的 小 块 ， 成 为 碎片 ， 后 续 的 请 求 
可 能 失败 ， 因 为 没有 一 块 足够 大 的 连续 空 亲 空间， 即使 这 时 总 的 空闲 
空间 超出 了 请 求 的 大 小 。 








上 面 展示 了 该 问题 的 一 个 例子 。 在 这 个 例子 中 ， 全 部 可 用 空闲 空间 是 
20 字 节 ， 但 被 切 成 两 个 10 字 节 大 小 的 碎片 ， 导 致 一 个 15 字 节 的 分 配 请 
求 失 败 。 所 以 本 章 需 要 解决 的 问题 是 : 


关键 问题 : 如 何 管理 空闲 空间 


要 满足 变 长 的 分 配 请 求 ， 应 该 如 何 管理 空闲 空间 ? 什么 策略 
可 以 让 雄 片 最 小 化 ? 不 同方 法 的 时 间 和 空间 开销 如 何 ? 


7 1 从 信 


本 章 的 大 多 数 讨论 ， 将 聚焦 于 用 户 级 内 存 分 配 库 中 分 配 程序 的 辉煌 历 
史 。 我 们 引用 了 内 1son 的 出 色调 查 [W+95] ， 有 兴趣 的 读者 可 以 从 原文 
了 解 更 多 细节 [1 。 


我 们 假定 基本 的 接口 就 像 malloc() 和 free () 提供 的 那样 。 有 具体 来 说 ， 

void * malloc(size t size) 需要 一 个 参数 size， 它 是 应 用 程序 请 求 
的 字 节 数 。 函 数 返 回 一 个 指针 (没有 具体 的 类 型 ， 在 C 语 言 的 术语 中 是 
void 类 型 ) ， 指 疝 这 样 大 小 (或 较 大 一 点 ) 的 一 块 空间 。 对 应 的 函数 
void free (void *ptr) 函数 接受 一 个 指针 ， 释 放 对 应 的 内 存 块 。 请 注 
意 该 接口 的 隐 含 意义 ， 在 释放 空间 时 ， 用 户 不 需 告 知 库 这 块 空 间 的 大 
小 。 因 此 ， 在 只 传 入 一 个 指针 的 情况 下 ， 库 必须 能 够 弄 清楚 这 块 内 存 
的 大 小 。 我 们 将 在 稍 后 介绍 是 如 何 得 知 的 。 


该 库 管 理 的 空间 由 于 历史 原因 被 称 为 堆 ， 在 堆 上 管理 
结构 通常 称 为 空闲 列表 (free list) 。 该 结构 包含 了 
所 有 空闲 块 的 引用 。 当 然 ， 该 数据 结构 不 一 定 真 的 是 
种 可 以 追踪 空闲 空间 的 数据 结构 。 


进一步 假设 ， 我 们 主要 关心 的 是 外 部 碎片 ( external 
fragmentation) ， 如 上 所 述 。 当 然 ， 分 配 程序 也 可 能 有 内 部 雁 毛 
(internal fragmentation) 的 问题 。 如 果 分 配 程 序 给 出 的 内 存 块 超 
出 请 求 的 大 小 ， 在 这 种 块 中 超出 请 求 的 空间 〈 因 此 而 未 使 用 ) 融 被 认 
为 是 内 部 雁 片 〈 因 为 浪费 发 生 在 已 分 配 单元 的 内 部 ) ， 这 是 另 一 种 形 
es 但 是 ， 简 单 起 见 ， 同 时 也 因为 它 更 有 趣 ， 这 里 主要 讨 
论 外 部 雁 片 。 


我 们 还 假设 ， 内 存 一 旦 被 分 配给 客户 ， 就 不 可 以 被 重 定位 到 其 他 位 
置 。 例 如 ， 一 个 程序 调用 malloc 0 ， 并 获得 一 个 指向 堆 中 一 块 空间 的 














空 几 空间 的 数据 
管理 内 存 区 域 中 
列表 ， 而 只 是 茶 























指针 ， 这 块 区 域 就 “属于 ”这 个 程序 了 ， 库 不 再 能 够 移动 ， 直 到 程序 
调用 相应 的 free( 函数 将 它 归 还 。 因 此 ， 不 可 能 进行 紧 闫 
(compaction) 空闲 空间 的 操作 ， 从 而 减少 碎片 忆 :。 但 是 ， 操 作 系 统 
层 在 实现 分 段 (segmentation) 时 ， 却 可 以 通过 紧凑 来 减少 碎片 〈 正 
如 第 16 章 讨论 的 那样 ) 。 


最 后 我 们 假设 ， 分 配 程序 所 管理 的 是 连续 的 一 块 字 节 区 域 。 在 一 些 情 

况 下 ， 分 配 程序 可 以 要 求 这 块 区 域 增长 。 例 如 ， 一 个 用 户 级 的 内 存 分 

配 库 在 空间 快 用 完 时 ， 可 以 同 内 核 申 请 增加 堆 空 间 (通过 sbrk 这 样 的 

~ ， 但 是 ， 简 单 起 匈 ， 我 们 假设 这 块 区 域 在 整个 生命 周期 内 
小 固定 。 


17.2 底层 机 制 








在 深入 策略 细 贡 之前， 我们 先 来 介绍 大 多 数 分 配 程序 采用 的 通用 机 
制 。 首 先 ， 探 讨 空间 分 割 与 合并 的 基本 知识 。 其 次 ， 看 看 如 何 快速 并 
相对 轻松 地 退 踪 已 分 配 的 空间 。 最 后 ， 讨 论 如 何 利用 空闲 区 域 的 内 部 
空间 维护 一 个 简单 的 列表 ， 来 退 踊 空 几 和 已 分 配 的 空间 。 


分 割 与 合并 





空 采 列表 包含 一 组 元 素 ， 记 录 了 堆 中 的 哪些 空间 还 没有 分 配 。 假 设 有 
下 面 的 30 字 节 的 堆 : 


used 
0 10 20 30 


这 个 堆 对 应 的 空闲 列表 会 有 两 个 元 素 ， 一 个 描述 第 一 个 10 字 节 的 空闲 
区 域 〈 字 节 0 一 9) ， 一 个 摘 述 改 一 个 空闲 区 域 〈 字 节 20 一 29) : 


addr0 addr:20 


NULL 


head 一 一 


通过 上 面 的 介绍 可 以 看 出 ， 任 何 大 于 10 字 节 的 分 配 请 求 都 会 失败 〈 返 
回 NULL) ， 因 为 没有 足够 的 连续 可 用 空间 。 而 恰好 10 字 节 的 需求 可 以 
由 两 个 空闲 块 中 的 任何 一 个 满足 。 但 是 ， 如 果 申 请 小 于 10 字 节 空 间 ， 
会 发 生 什么 ? 


假设 我 们 只 申请 一 个 字 节 的 内 存 。 这 种 情况 下 ， 分 配 程序 会 执行 所 谓 
的 分 割 〈《splitting) 动作 : 它 找 到 一 块 可 以 满足 请 求 的 空闲 空间 ， 将 
其 分 割 ， 第 一 块 返回 给 用 户 ， 第 二 块 留 在 空闲 列表 中 。 在 我 们 的 例子 
中 ， 假 设 这 时 遇 到 申请 一 个 字 节 的 请 求 ， 分 配 程序 选择 使 用 第 二 块 空 
闲 空间 ， 对 malloc 0 的 调用 会 返回 20 〈1 字 节 分 配 区 域 的 地 址 ) ， 空 亲 
列表 会 变 成 这 样 : 


addr0 addr21 


len:10 i len’9 一 UL 


head 一 一 


从 上 面 可 以 看 出 ， 空 闲 列 表 基 本 没有 变化 ， 只 是 第 二 个 空闲 区 域 的 起 
始 位 置 由 20 变 成 21， 长 度 由 10 变 为 9 了 4131。 因此 ， 如 果 请 求 的 空间 大 小 
小 于 某 块 空闲 块 ， 分 配 程 序 通 常会 进行 分 割 。 


许多 分 配 程 序 中 因此 也 有 一 种 机 制 ， 名 为 合并 (coalescing) 。 还 是 
看 前 面 的 例子 〈10 字 节 的 空闲 空间 ，10 字 节 的 已 分 配 空 间 ， 和 另外 10 
字 节 的 空闲 空间 ) 。 


对 于 这 个 (小 ) 堆 ， 如 果 应 用 程序 调用 free (10)， 归 还 堆 中 间 的 空 
间 ， 会 发 生 什 么 ? 如 果 只 是 简单 地 将 这 块 空闲 空间 加 入 空闲 列表 ， 不 











多 想 想 ， 可 能 得 到 如 下 的 结 


addr:10 addr-0 daddr20 


UL 


head 一 天 


问题 出 现 了 : 尽管 整个 堆 现 在 完全 空间 ， 但 0 
节 的 区 域 。 这 时 ， 如 果 用 户 请 求 20 字 贡 的 空间 ， 简 单 遍历 空闲 列表 会 
找 不 到 这 样 的 空闲 块 ， 因 此 返回 失败 。 


为 了 避免 这 个 问题 ， 分 配 程序 会 在 释放 一 块 内 存 时 合并 可 用 空间 。 
法 很 简单 : 在 归还 一 块 空 闲 内 存 时 ， 仔细 查看 要 和 的 内 存世 的 地 直 
以 及 邻近 的 空闲 空间 块 。 如 果 新 归还 的 空间 与 一 个 原 有 空闲 块 相 邻 
《或 两 个 ， 就 像 这 个 例子 ) ， 就 将 它们 合并 为 一 个 较 大 的 空闲 块 。 通 
过 合并 ， 最 后 空 s 闲 列表 应 该 像 这 样 : 





addr:0 


head — 1en.30 


一 一 和 NULL 


实际 上 ， 这 是 堆 的 空闲 列表 最 初 的 样子 ， 在 所 有 分 配 之 前 。 通 过 合 
并 ， 分 配 程序 可 以 更 好 地 确保 大 块 的 空 亲 空 间 能 提供 给 应 用 程序 。 








奶 踩 已 分 配 空间 的 大 小 





你 可 能 注意 到 ，free (void *ptr) 接 口 没 有 块 大 小 的 参数 。 因 此 它 是 假 
定 ， 对 于 给 定 的 指针 ， 内 存 分 配 库 可 以 很 快 确定 要 释放 空间 的 大 小 ， 





从 而 将 它 放 回 空间 列表 。 


要 完成 这 个 任务 ， 大 多 数 分 配 程序 都 会 在 头 块 〈header ) 中 保存 一 点 
额外 的 信息 ， 它 在 内 存 中 ， 通 常 就 在 返回 的 内 存 块 之 前 。 我 们 再 看 一 
个 例子 〈 见 图 17.1) 。 在 这 个 例子 中 ， 我 们 检查 一 个 20 字 节 的 已 分 配 
块 ， 由 ptr 指 着 ， 设 想 用 户 调用 了 malloc() ， 并 将 结果 保存 在 ptr 中 : 
ptr = malloc(20) 。 


该 头 块 中 至 少 包 含 所 分 配 空间 的 大 小 〈 这 个 例子 中 是 20) 。 它 也 可 能 
包含 一 些 额 外 的 指针 来 加 速 空间 释放 ， 包 含 一 个 幻 数 来 提供 完整 性 检 
查 ， 以 及 其 他 信息 。 我 们 假定 ， 一 个 简单 的 头 块 包含 了 分 配 空间 的 大 
小 和 一 个 约 数 : 


typedef struct header 七 { 
int size; 





int magic; 
} header t; 


上 面 的 例子 看 起 来 会 像 图 17. 2 的 样子 。 用 户 调用 free (ptr) 时 ， 库 会 通 
过 简单 的 指针 运算 得 到 头 块 的 位 置 : 


void free(void *ptr) { 
header t *hptr = (void *)ptr - sizeof (header t+); 


} 


malloc 库 使 用 的 头 妖 


Pr—p 


返回 给 调用 者 的 20 字 节 


Nr 





图 17. 1 一 个 已 分 配 的 区 域 加 上 头 


hptr 一 一 
maslc 1234367 
pT 一 一 


岂 


返回 给 调用 少 的 20 学 三 





图 17. 2” 头 块 的 具体 内 容 


获得 头 块 的 指针 后 ， 库 可 以 很 容易 地 确定 约 数 是 否 符合 预期 的 值 ， 作 
为 正常 性 检查 (assert (hptr->magic == 1234567) ) ， 并 简单 计算 
要 释放 的 空间 大 小 《 即 头 块 的 大 小 加 区 域 长 度 ) 。 请 注意 前 一 句 话 中 
一 个 小 但 重要 的 细节 : 实际 释放 的 是 头 块 大 小 加 上 分 配给 用 户 的 空间 
的 大 小 。 因 此 ， 如 果 用 户 请 求人 A 字 节 的 内 存 ， 库 不 是 寻找 大 小 为 A 的 空 
朵 块 ， 而 是 寻找 AM 上 头 块 大 小 的 空闲 块 。 























能 入 空闲 列表 


到 目前 为 止 ， 我 们 这 个 简单 的 空闲 列表 还 只 是 一 个 概念 上 的 存在 ， 它 
就 是 一 个 列表 ， 描 述 了 堆 中 的 空闲 内 存 块 。 但 如 何在 空闲 内 存 上 自己 内 
部 建立 这 样 一 个 列表 呢 ? 


在 更 典型 的 列表 中 ， 如 果 要 分 配 新 节点 ， 你 会 调用 malloc 来 获取 该 
节点 所 需 的 空间 。 遗 憾 的 是 ， 在 内 存 分 配 库 内 ， 你 无 法 这 么 做 ! 你 需 
要 在 空闲 空间 本 身 中 建立 空闲 空间 列表 。 虽 然 听 起 来 有 点 奇怪 ， 但 别 
担心 ， 这 是 可 以 做 到 的 。 


假设 我 们 需要 管理 一 个 4096 字 节 的 内 存 块 ( 即 堆 是 4k8B〉。 为 了 将 它 作 
为 一 个 空闲 空间 列表 来 管理 ， 首 先 要 初始 化 这 个 列表 。 开 始 ， 列 表 中 
只 有 一 个 条 目 ， 记 录 了 大 小 为 4096 的 空间 ( 减 去 涉 块 的 大 小 ，。 下 面 
是 该 列表 中 一 个 节点 描述 : 


typedef struct node 七 { 














int size; 
struct node t *next; 
} node t; 


现在 来 看 一 些 代 码 ， 它 们 初始 化 堆 ， 并 将 空闲 列表 的 第 一 个 元 素 放 在 
该 空间 中 。 假 设 堆 构建 在 茶 块 空 几 空间 上 ， 这 块 空间 通过 系统 调用 
mmap () 获得 。 这 不 是 构建 这 种 堆 的 唯一 选择 ， 但 在 这 个 例子 中 很 合 
适 。 下 面 是 代码 : 











// mmap() returns a pointer to a chunk of free space 
node t *head = mmap (NULL, 4096, PROT READ|PROT WRITE, 
MAP_ ANON | MAP_PRIVATE, 三 5 这 








head->size = 4096 - sizeof (node 七 ) ; 
head->next = NULL; 








执行 这 段 代 码 之 后 ， 列 表 的 状态 是 它 只 有 一 个 条 目 ， 记 录 大 小 为 
4088。 


是 的 ， 这 是 一 个 小 堆 ， 但 对 我 们 是 一 个 很 好 的 例子 。head 指 针 指 向 这 
块 区 域 的 起 始 地 址 ， 假 设 是 16KB 〈 尽 管 任何 虚拟 地 址 都 可 以 ) 。 扒 看 
起 来 如 图 17. 3 所 示 。 


现在 ， 假 设 有 一 个 100 字 市 的 内 存 请 求 。 为 了 满足 这 个 请 求 ， 库 首先 要 
找到 一 个 足够 大 小 的 块 。 因 为 只 有 一 个 4088 字 节 的 块 ， 所 以 选中 这 个 
块 。 然 后 ， 这 个 块 被 分 割 〈split) 为 两 块 : 一 块 足够 满足 请 求 〈 以 及 
头 块 ， 如 前 所 述 ) ， 一 块 是 剩余 的 空 亲 块 。 假 设 记 录 头 块 为 8 个 字 贡 
(一 个 整数 记录 大 小 ， 一 个 整数 记录 幻 数 ) ， 堆 中 的 空间 如 图 17. 4 所 


小 。 


head 一 [虚拟 地 址 : 16KBI| 


slze: 4088 头 块 ;Size 字段 


next: 0 头 块 :next 字段 (NULLN 0) 





利 卜 的 仆 B 块 


| 


图 17. 3 有 一 个 空闲 块 的 堆 





[虚拟 地 址 ; 16KDB] 





maslc:1234307 





现在 分 配 的 100 字 节 
空间 的 3980 字 节 块 


四 





图 17. 4 ”在 一 次 分 配 之 后 的 堆 


至 此 ， 对 于 100 字 节 的 请 求 ， 库 从 原 有 的 一 个 空闲 块 中 分 配 了 108 字 
节 ， 返 回 指向 它 的 一 个 指针 (在 上 图 中 用 ptr 表 示 ) ， 并 在 其 之 前 连续 




















的 8 字 节 中 记录 头 块 信息 ， 供 未 来 的 free 0 函数 使 用 。 同 时 将 列表 中 的 
空闲 节点 缩小 为 3980 字 节 (4088 一 108) 。 


现在 再 来 看 该 堆 ， 其 中 有 3 个 已 分 配 区 域 ， 每 个 100〈 加 上 头 块 是 
108) 。 这 个 堆 如 图 17. 5 所 示 。 


可 以 看 出 ， 堆 的 前 324 字 节 已 经 分 配 ， 因 此 我 们 看 到 该 空间 中 有 3 个 头 
块 ， 以 及 3 个 100 字 的 用 户 使 用 空间 。 空 闲 列 表 还 是 无 趣 : 只 有 一 个 
节点 (由 head 指 向 ) ， 但 在 3 次 分 割 后 ， 现 在 大 小 只 有 3764 字 节 。 但 如 
果 用 户 程序 通过 free () 归还 一 些 内 存 ， 会 发 生 什么 ? 


在 这 个 例子 中 ， 应 用 程序 调用 free (16500) ， 归 还 了 中 间 的 一 块 已 分 配 
空间 (内 存 块 的 起 始 地 址 16384 加 上 前 一 块 的 108， 和 这 一 块 的 头 块 的 8 
字 节 ， 就 得 到 了 16500) 。 这 个 值 在 前 图 中 用 sptr 指 向 。 


库 马 上 和 弄 清楚 了 这 块 要 释放 空间 的 大 小 ， 并 将 空闲 块 加 回 空 闲 列 表 。 
假设 我 们 将 它 插入 到 空闲 列表 的 头 位置 ， 该 空间 如 图 17. 6 所 示 。 





[虚拟 地 王 : 16KB] 
Iaslic:1234367 





已 分 配 的 100 字 入 


magic:12345367 
SDIT 一 一 





己 分 配 的 100 字 节 
但 即将 释放 


magic:1234567 








举 附 的 3764 字 节 块 





图 17.5 空闲 空间 和 3 个 已 分 配 块 





[虚拟 地 址 : 16KB] 
maglc:1234367 





要 已 分 配 的 100 字 节 
hecad 一 一 > PE 
J 
Sbtr 一 
现在 是 空 亲 内 存 块 


size: 100 


magic: 1234567 


已 分 配 的 100 字 节 


空 亲 的 3764 字 节 块 








图 17.6 空闲 空间 和 两 个 已 分 配 的 块 


现在 的 空闲 列表 包括 一 个 小 空闲 块 〈100 字 节 ， 由 列表 的 头 指 向 ) 和 一 
个 大 空闲 块 〈3764 字 节 ) 。 


我 们 的 列表 终于 有 不 止 一 个 元 素 了 ! 是 的 ， 空 闲 空 间 被 分 割 成 了 两 
段 ， 但 很 常见 。 


最 后 一 个 例子 : 现在 假设 剩余 的 两 块 已 分 配 的 空间 也 被 释放 。 没 有 合 
并 ， 空 闲 列 表 将 非常 破碎 ， 如 图 17.7 所 示 。 


从 图 中 可 以 看 出 ， 我 们 现在 一 团 糖 ! 为 什么 简单， 我们 起 了 合并 
(coalesce) 列表 项 ， 虽 然 整 个 内 存 空 间 是 空闲 的 ， 但 却 被 分 成 了 小 
段 ， 因 此 形成 了 雄 片 化 的 内 存 空 间 。 解 决 方案 很 简单 : 遍历 列表 ， 合 
并 (merge) 相 邻 块 。 完 成 之 后 ， 堆 又 成 了 一 个 整体 。 














[虚拟 地 址 : 16KB] 
SiZe: 100 





next: 16492 





现在 空闲 





next: 16708 


head 一 -> 


next: 16384 








现在 空闲 


Si1Ze: 3764 





空闲 的 3764 字 刷 块 


图 17.7 未 合并 的 空闲 空间 列表 
让 堆 增 长 


我 们 应 该 讨论 最 后 一 个 很 多 内 存 分 配 库 中 都 有 的 机 制 。 有 具体 来 说 ， 如 
果 堆 中 的 内 存 空间 耗 尽 ， 应 该 怎么 办 ? 最 简单 的 方式 就 是 返回 失败 。 
在 菜 些 情况 下 这 也 是 唯一 的 选择 ， 因 此 返回 NULL 也 是 一 种 体面 的 方 
式 。 别 太 难 过 ! 你 尽力 了 ， 即 使 失败 ， 你 也 虽 败 犹 采 。 


大 多 数 传统 的 分 配 程序 会 从 很 小 的 堆 开 始 ， 当 空间 耗 尽 时 ， 再 向 操作 
系统 申请 更 大 的 空间 。 通 常 ， 这 意味 着 它们 进行 了 某 种 系统 调用 《〈 例 
如 ， 大 多 数 UNIX 系 统 中 的 sbrk) ， 让 堆 增 长 。 操 作 系 统 在 执行 sbrk 系 
统 调用 时 ， 会 找到 空 帮 的 物理 内 存 页 ， 将 它们 映射 到 请 求 进程 的 地 址 
空间 中 去 ， 并 返回 新 的 堆 的 末尾 地 址 。 这 时 ， 就 有 了 更 大 的 堆 ， 请 求 
就 可 以 成 功 满 足 。 





17.3 基本 策略 





既然 有 了 这 些 底层 机 制 ， 让 我 们 来 看 看 管理 空闲 空间 的 一 些 基本 策 
略 。 这 些 方法 大 多 基于 简单 的 策略 ， 你 也 能 想到 。 在 阅读 之 前 试 试 ， 
你 是 否 能 想 出 所 有 的 选择 〈 也 许 还 有 新 策略 ! ) 。 


理想 的 分 配 程序 可 以 同时 保证 快速 和 雁 片 最 小 化 。 址 憾 的 是 ， 由 于 分 
配 及 释放 的 请 求 序列 是 任意 的 《毕竟 ， 它 们 由 用 户 程序 决定 ) ， 任 何 
特定 的 策略 在 人 条 组 不 匹配 的 输入 下 都 会 变 得 非常 差 。 所 以 我 们 不 会 插 
人 














最 优 匹配 


最 优 逻 配 (best fit) 策略 非常 简单 : 首先 通 历 整 个 空 亲 列 表 ， 找 到 
和 请 求 大 小 一 样 或 更 大 的 空 亲 块 ， 然 后 返回 这 组 候选 者 中 最 小 的 一 
块 。 这 就 是 所 谓 的 最 优 匹 配 〈 也 可 以 称 为 最 小 匹配 ) 。 只 需要 这 有 历 一 
次 空 朵 列表 ， 就 足以 找到 正确 的 块 并 返回 。 


最 优 匹配 背后 的 想法 很 简单 : 选择 最 接近 用 户 请 求 大 小 的 块 ， 从 而 尽 


量 避 人 免 空间 浪费 。 然 而 ， 这 有 代价 。 简 单 的 实现 在 所 历 查找 正确 的 空 
朵 块 时 ， 要 付出 较 高 的 性 能 代价 。 


最 差 匹 配 





最 差 匹 配 (worst fit) 方法 与 最 优 匹 配 相 反 ， 它 尝试 找 最 大 的 空闲 
块 ， 分 割 并 满足 用 户 需 求 后 ， 将 剩余 的 块 “很 大 ) 加 入 空闲 列表 。 最 
差 匹 配 符 试 在 空闲 列表 中 保留 较 大 的 块 ， 而 不 是 向 最 优 匹配 那样 可 能 
剩 下 很 多 难以 利用 的 小 块 。 但 是 ， 最 差 匹配 同样 怖 要 凯 历 整个 空 末 列 
表 。 更 粳 料 的 是 ， 大 多 数 研 守 表 明和 它 的 表现 非常 痊 ， 导 致 过 量 的 碎 
片 ， 同 时 还 有 很 高 的 开销 。 

















首次 匹配 〈first fit) 策略 就 是 找到 第 一 个 足够 大 的 块 ， 将 请 求 的 衬 
间 返 回 给 用 户 。 同 样 ， 剩 余 的 空 亲 空 间 留 给 后 续 请 求 。 


首次 匹配 有 速度 优势 (不 需要 遍历 所 有 空 几 块 )， 但 有 时 会 让 空 闻 列 
表 开 头 的 部 分 有 很 多 小 块 。 因 此 ， 分 配 程 序 如 何 管理 空 亲 列表 的 顺序 
就 变 得 很 重要 。 一 种 方式 是 基于 地 址 排序 (address-based 
ordering) 。 通 过 保持 空闲 块 按 内 存 地 址 有 序 ， 合 并 操作 会 很 容易 ， 
从 而 减少 了 内 存 人 碎 卢 。 





不 同 于 首次 匹配 每 次 都 从 列表 的 开始 查找 ， 下 次 匹配 (next fit) 算 
法 多 维护 一 个 指针 ， 指 向 上 一 次 查找 结束 的 位 置 。 其 想法 是 将 对 空闲 
空间 的 查找 操作 扩散 到 整个 列表 中 去 ， 避 免 对 列表 开头 频繁 的 分 割 。 
这 种 策略 的 性 能 与 首次 匹配 很 接近 ， 同 样 避免 了 过 历 碍 找 。 


例子 


下 面 是 上 述 策 略 的 一 些 例 子 。 设 想 一 个 空闲 列表 包含 3 个 元 素 ， 长 度 依 
ee 
方式 ) b 


head 一 10 一 3 一 省 一 NULL 


假设 有 一 个 15 字 节 的 内 存 请 求 。 最 优 匹配 会 遍历 整个 空 亲 列表 ， 人 发 现 
ee 空闲 列表 
变 为 : 


head 一 10 一 0 一 3 一 NULL 


本 例 中 发 生 的 情况 ， 在 最 优 匹 配 中 常常 发 生 ， 现 在 留 下 了 一 个 小 空闲 
块 。 最 差 匹 配 类 似 ， 但 会 选择 最 大 的 空闲 块 进行 分 割 ， 在 本 例 中 是 
30。 结 果 空 闲 列表 变 为 : 


head 一 10 一 1 一 0 一 NULL 


在 这 个 例子 中 ， 首 次 匹配 会 和 最 差 匹 配 一 样 ， 也 发 现 满足 请 求 的 第 一 
个 空闲 块 。 不 同 的 是 查找 开销 ， 最 优 匹 配 和 最 差 匹 配 都 需要 志 历 整个 
而 首次 匹配 只 找到 第 一 个 满足 需求 的 块 即 可 ， 因 此 减少 了 碍 找 
开销 。 


这 些 例子 只 是 内 存 分 配 策略 的 肤浅 分 析 。 真 实 场景 下 更 详细 的 分 析 和 
《如 合并 ) ， 需 要 更 深入 的 理解 。 也 许可 以 作为 作 
业 ， 你 说 呢 ? 











17.4 其 他 方式 


除了 上 述 基 本 策略 外 ， 人 们 还 提出 了 许多 技术 和 算法 ， 来 改进 内 存 分 
配 。 这 里 我 们 列 出 一 些 来 供 你 考虑 (就 是 让 你 多 一 些 思考 ， 不 只 局 限 
于 最 优 匹配 ) 。 





分 离 空 闲 列表 








直 以 来 有 一 种 很 有 趣 的 方式 叫 作 分 离 空 亲 列 表 〈segregated 
list) 。 基 本 想法 很 简单 : 如 果 茶 个 应 用 程序 经 常 申请 一 种 《或 几 
种 ) 大 小 的 内 存 空间 ， 那 就 用 一 个 独立 的 列表 ， 只 管理 这 样 大 小 的 对 
象 。 其 他 大 小 的 请 求 都 交 给 更 通用 的 内 存 分 配 程序 。 


这 种 方法 的 好 处 显而易见 。 通 过 拿 出 一 部 分 内 存 专门 满足 茶 种 大 小 的 
请 求 ， 碎 片 就 不 再 是 问题 了 。 而 且 ， 由 于 没有 复杂 的 列表 碍 找 过 程 ， 
这 种 特定 大 小 的 内 存 分 配 和 释放 都 很 快 。 








就 像 所 有 好 主意 一 样 ， 这 种 方式 也 为 系统 引入 了 新 的 复杂 性 。 例 如 ， 
应 该 拿 出 多 少 内 存 来 专门 为 菜 种 大 小 的 请 求 服务 ， 而 将 剩余 的 用 来 满 
足 一 般 请 求 ? 超级 工程 师 Jeff Bonwick 为 Solaris 系 统 内 核 设 计 的 厚 块 
分 配 程序 (slab allocator) ， 很 优雅 地 处 理 了 这 个 问题 [B94] 。 


具体 来 说 ， 在 内 核 启 动 时 ， 它 为 可 能 频繁 请 求 的 内 核对 象 创建 一 些 对 
象 缓存 (object cache) ， 如 锁 和 文件 系统 inode 等 。 这 些 的 对 象 绥 存 
每 个 分 离 了 特定 大 小 的 空 闪 列表， 因此 能 够 很 快 地 啊 应 内 存 请 求 和 释 
放 。 如 果菜 个 缓存 中 的 空间 空间 快 耗 太 时 ， 它 就 回 通 用 内 存 分 配 程序 
申请 一 些 内 存 厚 块 (slab) 〈 总 量 是 页 大 小 和 对 象 大 小 的 公 倍 数 ) 。 
相反 ， 如 果 给 定 厚 块 中 对 象 的 引用 计数 变 为 0， 通 用 的 内 存 分 配 程序 可 
以 从 专门 的 分 配 程 序 中 回收 这 些 空间 ， 这 通常 发 生 在 虚拟 内 存 系 统 需 
要 更 多 的 空间 的 时 候 。 








补充 了 不 起 的 工程 师 真 的 了 不 起 


像 Jeff Bonwick 这 样 的 工程 师 (Jeff Bonwick 不 仅 写 了 上 面 
提 到 的 厚 块 分 配 程 序 ， 还 是 令 人 惊叹 的 文件 系统 ZFS 的 负责 
人 ) ， 是 硅谷 的 灵魂 。 在 每 一 个 伟大 的 产品 或 技术 后 面 都 有 
这 样 一 个 人 “或 一 小 群 人 ) ， 他 们 的 天 赋 、 能 力 和 奉献 精神 
远 超 众人 。Facebook 的 Mark Zuckerberg 曾 经 说 过 : “那些 在 
自己 的 领域 中 超凡 脱俗 的 人 ， 比 那些 相当 优秀 的 人 强 得 不 是 
一 点 点 。” 这 就 是 为 什么 ， 会 有 人 成 立 上 自己 的 公司 ， 然 后 永 
远 地 改 变 了 这 个 世界 〈 想 想 Google、Apple 和 Facebook) 。 絮 
力 工 作 ， 你 也 可 能 成 为 这 种 “以 一 当 百 ”的 人 。 做 不 到 的 
话 ， 就 和 这 样 的 人 一 起 工作 ， 你 会 明白 什么 是 “上 听 君 一 席 
话 ， 胜 读 十 年 书 ”。 如 果 都 做 不 到 ， 那 束 太 难过 了 。 





厚 块 分 配 程 序 比 大 多 数 分 离 空 几 列表 做 得 更 多 ， 它 将 列表 中 的 空 帮 对 
象 保 持 在 预 初始 化 的 状态 。Bonwick 指 出 ， 数 据 结构 的 初始 化 和 销毁 的 
开销 很 大 [B94] 。 通 过 将 空 采 对 象 保持 在 初始 化 状态 ， 厚 块 分 配 程序 避 
免 了 频繁 的 初始 化 和 销毁 ， 从 而 显著 降低 了 开销 。 


伙伴 系统 


因为 合并 对 分 配 程序 很 关键 ， 所 以 人 们 设计 了 一 些 方法 ， 让 合并 变 得 
简单 ， 一 个 好 例子 就 是 二 分 伙伴 分 配 程 序 (binary buddy 
allocator ) [K65] 。 


在 这 种 系统 中 ， 空 闲 空间 首先 从 概念 上 被 看 成 大 小 为 2 的 大 空间 。 当 
有 一 个 内 存 分 配 请 求 时 ， 空 闲 空间 被 递归 地 一 分 为 二 ， 直 到 刚好 可 以 
满足 请 求 的 大 小 《再 一 分 为 二 就 无 法 满足 ) 。 这 时 ， 请 求 的 块 被 返回 
一 个 64KB 大 小 的 空闲 空间 被 切 分 ， 以 便 提 
六 7KB 有 的 块 : 








在 这 个 例子 中 ， 最 左边 的 8KB 块 被 分 配给 用 户 〈 如 上 图 中 深 灰色 部 分 所 
示 ) 。 请 注意 ， 这 种 分 配 策略 只 允许 分 配 2 的 整数 次 景 大 小 的 空闲 块 ， 
因此 会 有 内 部 碎片 (internal fragment) 的 麻烦 。 


伙伴 系统 的 漂亮 之 处 在 于 块 被 释放 时 。 如 果 将 这 个 8KB 的 块 归 还 给 空闲 
列表 ， 分 配 程序 会 检查 “伙伴 ”8KB 是 否 空闲 。 如 果 是 ， 就 合 二 为 一 ， 
变 成 16KB 的 块 。 然 后 会 检查 这 个 16KB 块 的 伙伴 是 否 空间， 如 果 是 ， 就 
合并 这 两 块 。 这 个 递归 合并 过 程 继 续 上 滴 ， 直 到 合并 整个 内 存 区 域 ， 
或 者 茶 一 个 块 的 伙伴 还 没有 被 释放 。 


伙伴 系统 运转 良好 的 原因 ， 在 于 很 容易 确定 某 个 块 的 伙伴 。 怎 么 找 ? 
仔细 想 想 上 面 例子 中 的 各 个 块 的 地 址 。 如 果 你 想 得 够 仔细 ， 就 会 发 现 
每 对 互 为 伙伴 的 块 只 有 一 位 不 同 ， 正 是 这 一 位 决定 了 它们 在 整个 伙伴 
树 中 的 层次 。 现 在 你 应 该 已 经 大 致 了 解 了 二 分 伙伴 分 配 程序 的 工作 方 
式 。 更 多 的 细节 可 以 参考 Wilson 的 调查 [W+95] 。 





其 他 想法 


上 面 提 到 的 众多 方法 都 有 一 个 重要 的 问题 ， 缺 乏 可 扩展 性 
Cscaling) 。 有 具体 来 说 ， 就 是 查找 列表 可 能 很 慢 。 因 此 ， 更 先进 的 分 
配 程序 采用 更 复杂 的 数据 结构 来 优化 这 个 开销 ， 牺 牲 简单 性 来 换取 性 
能 。 例 子 包括 平衡 二 又 树 、 伸 展 树 和 偶 序 树 [W+95] 。 


考虑 到 现代 操作 系统 通常 会 有 多 核 ， 同 时 会 运行 多 线程 的 程序 (本 书 
之 后 关于 并 发 的 章节 将 会 详细 介绍 ) ， 因 此 人 们 做 了 许多 工作 ， 提 升 
分 配 程序 在 多 核 系 统 上 的 表现 。 两 个 很 棒 的 例子 参见 Berger 等 人 的 
[B+00] 和 Evans 的 [E06]， 看 看 文章 了 解 更 多 细节 。 


这 只 是 人 们 为 了 优化 内 存 分 配 程序 ， 在 长 时 间 内 提出 的 几 千 种 想法 中 
的 两 种 。 感 兴趣 的 话 可 以 深入 阅读 。 或 者 阅读 glibc 分 配 程 序 的 工作 原 
理 L[S15]， 你 会 更 了 解 现 实 的 情形 。 























17.5 小 结 





在 本 章 中 ， 我 们 讨论 了 最 基本 的 内 存 分 配 程序 形式 。 这 样 的 分 配 程序 
存在 于 所 有 地 方 ， 与 你 编写 的 每 个 C 程 序 链接 ， 也 和 管理 其 自身 数据 结 





构 的 内 存 的 底层 操作 系统 链接 。 与 许多 系统 一 样 ， 在 构建 这 样 一 个 系 
统 时 需要 做 许多 折 中 。 对 分 配 程序 提供 的 确切 工作 负载 了 解 得 越 多 ， 
就 越 能 调整 它 以 更 好 地 处 理 这 种 工作 负载 。 在 现代 计算 机 系统 中 ， 构 
建 一 个 适用 于 各 种 工作 负载 、 快 速 、 空 间 高效 、 可 扩展 的 分 配 程序 仍 
然 是 一 个 持续 的 挑战 。 


[B+00] “Hoard: A Scalable Memory Allocator for Multithreaded 
Applications” Emery D. Berger, Kathryn S. McKinley, Robert D. 
Blumofe, and Paul R. Wilson ASPLOS-IX, November 2000 


Berger 和 公司 的 优秀 多 处 理 器 系统 分 配 程序 。 它 不 仅 是 一 篇 有 趣 的 论 
文 ， 也 是 能 用 于 指导 实战 的 ! 


[B94] “The Slab Allocator: An Object-Caching Kernel Memory 
Allocator” Jeff Bonwick 





USENIX ”94 


一 篇 关于 如 何 为 操作 系统 内 核 构 建 分 配 程序 的 好 文章 ， 也 是 如 何 专门 
针对 特定 通用 对 象 大 小 的 一 个 很 好 的 例子 。 


[E06] “A Scalable Concurrent malloc(3) Implementation for 
FreeBSD” Jason Evans 


本 文 详细 介绍 如 何 构 建 一 个 真正 的 现代 分 配 程 序 以 用 于 多 处 理 器 。 
“jemalloc” 分 配 程 序 今天 在 FreeBSD、NetBSD、Mozilla Firefox 和 
Facebook 中 已 广泛 使 用 。 


[K65]“A Fast Storage Allocator” Kenneth C. Knowlton 





Communications of the ACM, Volume 8, Number 10, October 1965 


伙伴 分 配 的 常见 引用 。 一 个 奇怪 的 事实 是 : Knuth 不 是 把 这 个 想法 归功 
于 Knowlton， 而 是 归功 于 获得 话 贝 尔 奖 的 经 济 学 家 Harry Markowitz。 








另 一 个 奇怪 的 事实 是 : Knuth 通 过 秘书 收发 他 的 所 有 电子 邮件 。 他 不 会 
自己 发 送 电 子 邮 件 ， 而 是 告诉 他 的 秘书 要 发 送 什么 邮件 ， 然 后 秘书 负 
责 发 送 电子 邮件 。 最 后 一 个 关于 Knuth 的 事实 :他 创建 了 Tex， 这 是 用 
于 排版 本 书 的 工具 。 这 是 一 个 惊人 的 软件 .4 生 。 


[S15] “Understanding glibc malloc” Sploitfun 


深入 了 解 glibc malloc 是 如 何 工 作 的 。 本 文 详细 得 令 人 惊讶 ， 一 篇 非 
常 好 的 阅读 材料 。 


[W+95] “Dynamic Storage Allocation: A Survey and Critical 
Review” Paul R. VWilson, Mark S. Johnstone, Michael Neely, 
David Boles International Workshop on Memory Management 


Kinross, Scotland, September 1995 


对 内 存 分 配 的 许多 方面 进行 了 章 越 且 深 入 的 调查 ， 比 这 个 小 小 的 章 市 
中 所 含 的 内 容 拥 有 更 多 的 细 市 ! 








作业 











程序 malloc. py 让 你 探索 本 章 中 描述 的 简单 空闲 空间 分 配 程序 的 行为 。 
有 关 其 基本 操作 的 详细 信息 ， 请 参见 README 文 件 。 


问题 


1. 首先 运行 flag -n 10 -H 0 -p BEST -s 0 来 产生 一 些 随 机 分 配 和 释 
放 。 你 能 预测 malloc () /free (会 返回 什么 吗 ? 你 可 以 在 每 次 请 求 后 猜 
测 空 闲 列 表 的 状态 吗 ? 随 着 时 间 的 推移 ， 你 对 空闲 列表 有 什么 发 现 ? 


2， 使 用 最 差 匹 配 策略 搜索 空闲 列表 (-p WORST) 时， 结果 有 何不 同 ? 
什么 改变 了 ? 





3. 如 果 使 用 首次 匹配 〈-p FIRST) 会 如 何 ? 使 用 首次 匹配 时 ， 什 么 变 


RT 


4. 对 于 上 述 问题 ， 列 表 在 保持 有 序 时 ， 可 能 会 影响 某 些 策略 找到 空闲 
位 置 所 需 的 时 间 。 使 用 不 同 的 空 闪 列表 排序 (-] ADDRSORT ，-=-1 
SIZESORT +，-] SIZESORT-) 查看 策略 和 列表 排序 如 何 相 互 影响 。 


5. 合并 空 几 列表 可 能 非常 重要 。 增 加 随机 分 配 的 数量 (比如 说 -=n 

1000) 。 随 着 时 间 的 推移 ， 大 型 分 配 请 求 会 发 生 什 么 ? 在 有 和 没有 合 

并 的 情况 下 运行 《 即 不 用 和 采用 -5 标志 ) 。 你 看 到 了 什么 结果 差异 ? 

En 
9 














6. 将 已 分 配 百 分 比 -P 改 为 高 于 50， 会 发 生 什 么 ? 它 接 近 100 时 分 配 会 
怎样 ? 接近 0 会 怎样 ? 
7. 要 生成 高 度 碎 片 化 的 空闲 空间 ， 你 可 以 提出 怎样 的 具体 请 求 ? 使 


用 -A 标 志 创 建 碎片 化 的 空闲 列表 ， 碍 看 不 同 的 策略 和 选项 如 何 改 变 空 
朵 列表 的 组 织 。 








[1]， 它 有 近 80 页 长 。 因 此 ， 你 必须 要 真 的 对 它 感 兴趣 ! 


[2]， 一 旦 将 指向 内 存 块 的 一 个 指针 交 给 C 程 序 ， 通 常 很 难 确定 所 有 对 
该 区 域 的 引用 《指针 ) ， 这 些 引 用 (指针 〉 可 能 存储 在 其 他 变量 中 ， 
或 者 甚至 在 执行 的 茶 个 时 刻 存 储 在 寄存 器 中 。 在 更 强 类 型 的 、 佛 垃圾 
情况 可 能 并 非 如 此 ， 因 此 可 以 用 紧凑 技术 来 减少 碎 





[3]， 这 里 的 讨论 假设 没有 头 块 ， 这 是 我 们 现在 做 出 的 一 个 不 现实 但 简 
化 的 假设 。 


[4]， 实际 上 我 们 使 用 LaTeX， 它 基于 Lamport 对 Tex 的 补充 ， 但 二 者 非 
常 相似 。 


第 18 章 分页: 介绍 


有 时候 人 们 会 说 ， 操 作 系 统 有 两 种 方法 ， 来 解决 大 多 数 空间 管理 问 
题 。 第 一 种 是 将 空间 分 割 成 不 同 长 度 的 分 片 ， 就 像 虚拟 内 存 管 理 中 的 
分 段 。 遗 憾 的 是 ， 这 个 解决 方法 存在 固有 的 问题 。 具 体 来 说 ， 将 空间 
切 成 不 同 长 度 的 分 片 以 后 ， 空 间 本 和 映 会 碎片 化 (fragmented) ， 随 着 
时 间 推 移 ， 分 配 内 存 会 变 得 比较 困难 。 


因此 ， 值 得 考虑 第 二 种 方法 ; 将 空间 分 割 成 固定 长 度 的 分 片 。 在 虚拟 
内 存 中 ， 我 们 称 这 种 思想 为 分 页 ， 可 以 追溯 到 一 个 早期 的 重要 系统 ， 
Atlas[KE+62，L78] 。 分 页 不 是 将 一 个 进程 的 地 址 空间 分 割 成 几 个 不 同 
长 度 的 逻辑 段 〈 即 代码 、 堆 、 段 ) ， 而 是 分 割 成 固定 大 小 的 单元 ， 
个 单元 称 为 一 页 。 相 应 地 ， 我 们 把 物理 内 存 看 成 是 定 长 槽 块 的 阵列 ， 
叫 作 页 帧 “page frame) 。 每 个 这 样 的 页 帧 包含 一 个 虚拟 内 存 页 。 我 
们 的 挑战 是 : 











关键 问题 ， 如 何 通过 页 来 实现 虚拟 内 存 
如 何 通过 页 来 实现 虚拟 内 存 ， 从 而 避免 分 段 的 问题 ? 基本 技 


术 是 什么 ?如何 让 这 些 技术 运行 良好 ， 并 尽 可 能 减少 空间 和 
时 间 开销 ? 


18. 1 一 个 简单 例子 


为 了 让 该 方法 看 起 来 更 清晰 ， 我 们 用 一 个 简单 例子 来 说 明 。 图 18. 1 展 
示 了 一 个 只 有 64 字 节 的 小 地 址 空间 ， 有 4 个 16 字 市 的 页 《虚拟 页 0、1、 





2、3) 。 真 实 的 地 址 空间 肯定 大 得 多 ， 通 常 32 位 有 4GB 的 地 址 空间 ， 甚 
至 有 64 位 凡 :。 在 本 书 中 ， 我 们 常常 用 小 例子 ， 让 大 家 更 容易 理解 。 


0 
地 下 空间 的 第 0 页 
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第 1 页 
32 

第 2 页 
48 

第 3 页 
64 


图 18. 1 一 个 简单 的 64 字 节 地 址 空间 


物理 内 存 ， 如 图 18.2 所 示 ， 也 由 一 组 固定 大 小 的 槽 块 组 成 。 在 这 个 例 
子 中 ， 有 8 个 页 帧 “由 128 字 节 物理 内 存 构 成 ， 也 是 极 小 的 ) 。 从 图 中 
可 以 看 出 ， 虚 拟 地 址 空间 的 页 放 在 物理 内 存 的 不 同位 置 。 图 中 还 显 
示 ， 操 作 系 统 自己 用 了 一 些 物理 内 存 。 


可 以 看 到 ， 与 我 们 以 前 的 方法 相 比 ， 分 页 有 许多 优点 。 可 能 最 大 的 改 
进 就 是 灵活 性 : 通过 完善 的 分 页 方法 ， 操 作 系 统 能 够 高 效 地 提供 地 址 
空间 的 抽象 ， 不 管 进程 如 何 使 用 地 址 空间 。 例 如 ， 我 们 不 会 假定 堆 和 
栈 的 增长 方向， 以 及 和 它们 如 何 使 用 。 


另 一 个 优点 是 分 页 提供 的 空闲 空间 管理 的 简单 性 。 例 如 ， 如 果 操 作 系 
统 希 望 将 64 字 市 的 小 地 址 空间 放 到 8 页 的 物理 地 址 空间 中 ， 它 只 要 找 
到 4 个 空闲 页 。 也 许 操作 系统 保存 了 一 个 所 有 空闲 页 的 空闲 列表 (free 
list) ， 只 需要 从 这 个 列表 中 拿 出 4 个 空闲 页 。 在 这 个 例子 里 ， 操 作 系 





统 将 地 址 空间 的 虚拟 页 0 放 在 物理 页 帧 ?3， 虚 拟 页 1 放 在 物理 页 帧 7， 虚 
拟 页 2 放 在 物理 页 帧 5， 虚 拟 页 3 放 在 物理 页 帧 2。 页 帧 1、4、6 目 前 是 
空 几 的 。 










为 操作 系统 保留 
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图 18. 2 ”64 字 节 的 地 址 空间 在 128 字 节 的 物理 内 存 中 


为 了 记录 地 址 空间 的 每 个 虚拟 页 放 在 物理 内 存 中 的 位 置 ， 操 作 系 统 通 
和 常 为 每 个 进程 保存 一 个 数据 结构 ， 称 为 页 表 (page table) 。 页 表 的 
主要 作用 是 为 地 址 空间 的 每 个 虚拟 页 面 保存 地 址 转换 (address 
translation) ， 从 而 让 我 们 知道 每 个 页 在 物理 内 存 中 的 位 置 。 对 于 我 
们 的 简单 示例 〈 见 图 18.2) ， 页 表 因 此 具有 以 下 4 个 条 目 : 《虚拟 页 
0 一 物理 帧 3) 、 (VP 1>PF 7) 、 (VP 2 一 PF 5) 和 (VP 3 一 PF 
2) 。 


重要 的 是 要 记 住 ， 这 个 页 表 是 一 个 每 进程 的 数据 结构 (我 们 讨论 的 大 
多 数 页 表 结 构 都 是 每 进程 的 数据 结构 ， 我 们 将 接触 的 一 个 例外 是 倒 排 
页 表 ，inverted page table) 。 如 果 在 上 面 的 示例 中 运行 另 一 个 进 
程 ， 操作 系统 将 不 得 不 为 它 管理 不 同 的 页 表 ， 因为 它 的 虚拟 页 显然 映 
射 到 不 同 的 物理 页 面 〈 除 了 共享 之 外 ) 。 


现在 ， 我 们 了 解 了 足够 的 信息 ， 可 以 完成 一 个 地 址 转换 的 例子 。 设 想 
拥有 这 个 小 地 址 空间 〈64 字 节 ) 的 进程 正在 访问 内 存 : 


movl <virtual address>, 和 eaX 








具体 来 说 ， 注 意 从 地 址 《virtual address> 到 寄存 器 eax 的 数据 显 式 加 
载 〈 因 此 忽略 之 前 肯定 会 发 生 的 指令 获取 ) 。 


为 了 转换 (translate) 该 过 程 生 成 的 虚拟 地 址 ， 我 们 必须 首先 将 它 分 
成 两 个 组 件 :， 虚拟 页 面 号 (virtual page number，VPN) 和 页 内 的 偏 
0 对 于 这 个 例子 ， 因 为 进程 的 虚拟 地 址 空间 是 64 字 

， 我 们 的 虚拟 地 址 总 共 需 要 6 位 (26 = 64) 。 因 此 ， 虚 拟 地 址 可 以 
表 东 如 下 ， 








ggEOC 


在 该 图 中 ，Va5 是 虚拟 地 址 的 最 高 位 ，Va0 是 最 低位 。 因 为 我 们 知道 
的 大 小 (16 字 节 )〉 ， 所 以 可 以 进一步 划分 虚拟 地 址 ， 如 下 所 示 : 


VPN 俩 移 量 


[dll le 


页 面 大 小 为 16 字 节 ， 位 于 64 字 节 的 地 址 空间 。 因 此 我 们 需要 能 够 选择 
4 个 页 ， 地 址 的 前 2 位 就 是 做 这 件 事 的 。 因 此 ， 我 们 有 一 个 2 位 的 虚拟 页 
写 《VPN) 。 其 余 的 位 告诉 我 们 ， 感 兴趣 该 页 的 哪个 字 节 ， 在 这 个 例子 
中 是 4 位 ， 我 们 称 之 为 侦 移 量 。 


当 进 程 生成 虚拟 地 址 时 ， 操 作 系 统 和 硬件 必须 协作 ， 将 它 转 换 为 有 意 
义 的 物理 地 址 。 例 如 ， 让 我 们 假设 上 面 的 加 载 是 虚拟 地 址 21: 


movl 21, geaX 














将 “21” 变 成 二 进 制 形式 ， 是 “010101”， 因 此 我 们 可 以 检查 这 个 虚 
拟 地 址 ， 看 看 它 是 如 何 分 解 成 虚拟 页 号 CVPN) 和 偏 移 量 的 : 


VPN 侦 移 量 
ER 





因此 ， 虚 拟 地 址 “21” 在 虚拟 页 “01” 【或 1) 的 第 5 个 (“0101”) 
字 节 处 。 通 过 虚拟 页 号 ， 我 们 现在 可 以 检索 页 表 ， 找 到 虚拟 页 1 所 在 的 
物理 页 面 。 在 上 面 的 页 表 中 ， 物 理 帧 号 (PFN)〉 (有 时 也 称 为 物理 页 
号 ，physical page numper 或 PPN) 是 7 二进制 111) 。 因 此 ， 我 们 可 


以 通过 用 PEFN 蔡 换 VPN 来 转换 此 虚拟 地 址 ， 然 后 将 载 入 发 送 给 物理 内 存 
( 见 图 18.3) 。 


请 注意 ， 偏 移 量 保持 不 变 〈( 即 未 翻译 ) ， 因 为 偏 移 量 只 是 告诉 我 们 页 
面 中 的 哪个 字 节 是 我 们 想 要 的 。 我 们 的 最 终 物理 地 址 是 1110101 (十 进 
制 117) ， 正 是 我 们 希望 加 载 指令 〈 见 图 18. 2) 获取 数据 的 地 方 。 


有 了 这 个 基本 概念 ， 我 们 现在 可 以 询问 《希望 也 可 以 回答 ) 关于 分 页 
的 一 些 基 本 问题 。 例 如 ， 这 些 页 表 在 哪里 存储 ?页 表 的 典型 内 容 是 什 
么 ， 表 有 多 大 ? 分 页 是 否 会 使 系统 变 得 很 ) 慢 ? 这 些 问 题 和 其 他 迷 
人 的 问题 “至 少 部 分 ) 在 下 文中 回答 。 请 继续 阅读 ! 














VPN 侦 移 量 
ee 


让 扫地 二 | 0 | 1 | 0 1 ol 
| | 


地 址 转换 


1 41 
Wt 1 | 1 | | 1 0 1 
人 


PFN 偏 移 量 
图 18. 3 地址 转换 过 程 








18. 2 页 表 存 在 哪里 


页 表 可 以 变 得 非常 大 ， 比 我 们 之 前 讨论 过 的 小 段 表 或 基 址 /界限 对 要 大 
得 多 。 例 如 ， 想 象 一 个 典型 的 32 位 地 址 空间 ， 带 有 4KB 的 页 。 这 个 虚拟 
地 址 分 成 20 位 的 VPN 和 12 位 的 偏 移 量 ( 回 想 一 下 ，1KB 的 页 面 大 小 需要 
10 位 ， 只 需 增加 两 位 即 可 达到 4KB) 。 


一 个 20 位 的 VPN 意 味 着 ， 操 作 系 统 必须 为 每 个 进程 管理 2 个 地 址 转换 
(大 约 一 百 万 ) 。 假 设 每 个 页 表格 条 目 〈PTE) 需要 4 个 字 节 ， 来 保存 
物理 地 址 转换 和 任何 其 他 有 用 的 东西 ， 每 个 页 表 就 需要 巨大 的 4MB 内 
存 ! 这 非常 大 。 现 在 想象 一 下 有 100 个 进程 在 运行 : 这 意味 着 操作 系统 
会 需要 400MB 内 存 ， 只 是 为 了 所 有 这 些 地 址 转换 ! 即使 是 现在 ， 机 器 拥 
有 王 兆 字 节 的 内 存 ， 将 它 的 一 大 块 仅 用 于 地 址 转换 ， 这 似乎 有 点 狗 
狂 ， 不 是 吗 ? 我 们 甚至 不 敢 想 64 位 地 址 空间 的 页 表 有 多 大 。 那 太 可 怕 
了 ， 也 许 把 你 吓 坏 了 。 


由 于 页 表 如 此 之 大 ， 我 们 没有 在 MMU 中 利用 任何 特殊 的 片上 硬件 ， 来 存 
储 当 前 正在 运行 的 进程 的 页 表 ， 而 是 将 每 个 进程 的 页 表 存 储 在 内 存 
中 。 现 在 让 我 们 假设 页 表 存 在 于 操作 系统 管理 的 物理 内 存 中 ， 稍 后 我 
们 会 看 到 ， 很 多 操作 系统 内 存 本 身 都 可 以 虚拟 化 ， 因 此 页 表 可 以 存储 
在 操作 系统 的 虚拟 内 存 中 〈 其 至 可 以 交换 到 磁盘 上 〉) ， 但 是 现在 这 太 
令 人 困惑 了 ， 所 以 我 们 会 忽略 它 。 图 18. 4 展示 了 操作 系统 内 存 中 的 页 
表 ， 看 到 其 中 的 一 小 组 地 址 转换 了 吗 ? 




















物理 内 存 页 帧 0 
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图 18.4 例子: 内 核 物理 内 存 中 的 页 表 


18.3 列表 中 究竟 有 什么 





让 我 们 来 谈 谈 页 表 的 组 织 。 页 表 就 是 一 种 数据 结构 ， 用 于 将 虚拟 地 址 
《或 者 实际 上 ， 是 虚拟 页 号 ) 映射 到 物理 地 址 (物理 帧 号 )。 因 此 ， 
任何 数据 结构 都 可 以 采用 。 最 简单 的 形式 称 为 线性 页 表 (linear page 
table) ， 就 是 一 个 数组 。 操 作 系 统 通过 虚拟 页 号 (VPN) 检索 该 数 
组 ， 并 在 该 索引 处 查找 页 表 项 (PTE) ， 以 便 找 到 期 望 的 物理 帧 号 
CPFN) 。 现 在 ， 我 们 将 假设 采用 这 个 简单 的 线性 结构 。 在 后 面 的 章节 
中 ， 我 们 将 利用 更 高 级 的 数据 结构 来 帮助 解决 一 些 分 页 问题 。 


至 于 每 个 PTE 的 内 容 ， 我 们 在 其 中 有 许多 不 同 的 位 ， 值 得 有 所 了 解 。 有 
效 位 (valid bit) 通常 用 于 指示 特定 地 址 转换 是 否 有 效 。 例 如 ， 当 一 
个 程序 开始 运行 时 ， 它 的 代码 和 扒 在 其 地 址 空间 的 一 端 ， 栈 在 另 一 
端 。 所 有 未 使 用 的 中 间 空 间 都 将 被 标记 为 无 效 〈invalid) ， 如 有 果 进 程 
尝试 访问 这 种 内 存 ， 就 会 陷入 操作 系统 ， 可 能 会 导致 该 进程 终止 。 
此 ， 有 效 位 对 于 支持 稀 玖 地 址 空间 至 关 重 要 。 通 过 简单 地 将 地 址 空间 
中 所 有 未 使 用 的 页 面 标记 为 无 效 ， 我 们 不 再 需要 为 这 些 页 面 分 配 物 理 
帧 ， 从 而 市 省 大 量 内 存 。 


我 们 还 可 能 有 保护 位 (protection bit) ， 表 明 页 是 否 可 以 读 取 、 写 
入 或 执行 。 同 样 ， 以 这 些 位 不 允许 的 方式 访问 页 ， 会 陷入 操作 系统 。 


还 有 其 他 一 些 重 要 的 部 分 ， 但 现在 我 们 不 会 过 多 讨论 。 存 在 位 
(present bit) 表示 该 页 是 在 物理 存储 器 还 是 在 人 磁 禹 上 【〔 即 它 已 被 换 
出 ，swapped out ) 。 当 我 们 研究 如 何 将 部 分 地 址 空间 交换 (swap〉 到 
人 磁盘， 从 而 支持 大 于 物理 内 存 的 地 址 空间 时 ， 我 们 将 进一步 理解 这 一 
机 制 。 交 换 允 许 操 作 系 统 将 很 少 使 用 的 页 面 移 到 人 磁盘， 从 而 释放 物理 
， 脏 位 (dirty bit) 也 很 稼 见 ， 表 明 页 面 被 带 入 内 存 后 是 个 被 修 
改过 。 


参考 位 (reference bi 让 ， 也 被 称 为 访问 位 ，accessed bit) 有 时 用 于 
追踪 页 是 否 被 访问 ， 也 用 于 确定 哪些 页 很 受 欢 迎 ， 因 此 应 该 保留 在 内 














存 中 。 这 些 知识 在 页 面 蔡 换 (page replacement ) 时 非常 重要 ， 我 们 
将 在 随后 的 章节 中 详细 研究 这 一 主题 。 


图 18. 5 显示 了 来 自 x86 架 构 的 示例 页 表 项 [L109] 。 它 包含 一 个 存在 位 
C(P) ， 确 定 是 否 允 许 写 入 该 页 面 的 读 / 写 位 (RAW) 确定 用 户 模 式 进 
程 是 否 可 以 访问 该 页 面 的 用 户 /超级 用 户 位 (U/S) ， 有 几 位 PWT、 
PCD、PAT 和 G) 确定 硬件 缓存 如 何 为 这 些 页 面 工作 ， 一 个 访问 位 (A) 
和 一 个 脏 位 (D，， 最 后 是 页 帧 号 PFN) 本身 。 


31 3029 2827 2 725233222201901817 101514031212109 876543210 


a dE 
四 人 


图 18. 5 一 个 x86 页 表 项 (PTE ) 


阅读 英特尔 架构 手册 [109] ， 以 获取 有 关 x86 分 页 支持 的 更 多 详细 信 
恩 。 然 而 ， 要 事先 警告 ， 阅 读 这 些 手 册 时 ， 忆 生 非 党 有 用 、 允 于 在 
作 系统 中 编写 代码 以 使 用 这 些 页 表 的 用 户 而 言 ， 这 些 手册 当然 是 
的 ) ， 但 起 初 可 能 很 具 挑 战 性 。 需 要 一 点 耐心 和 强烈 的 愿望 。 

















18.4 分 页 : 也 很 慢 


内 存 中 的 页 表 ， 我 们 已 经 知道 它们 可 能 太 大 了 。 事 实证 明 ， 它 们 也 会 
让 速度 变 慢 。 以 简单 的 指令 为 例 : 


movl 21, %Seax 


同样 ， 我 们 只 看 对 地 址 21 的 显 式 引 用 ， 而 不 关心 指令 获取 。 在 这 个 例 
子 中 ， 我 们 假定 人 硬件 为 我 们 执行 地 址 转换 。 要 获取 所 需 数据 ， 系 统 必 
须 首先 将 虚拟 地 址 〈21) 转换 为 正确 的 物理 地 址 〈117) 。 因 此 ， 在 从 
地 址 117 获 取 数 据 之 前 ， 系 统 必须 首先 从 进程 的 页 表 中 提取 适当 的 页 表 
项 ， 执 行 转换 ， 然 后 从 物理 内 存 中 加 载 数 据 。 





为 此 ， 硬 件 必 须知 道 当 前 正在 运行 的 进程 的 页 表 的 位 置 。 现 在 让 我 们 
假设 一 个 页 表 基 址 寄存 器 (page-table base register) 包含 页 表 的 
起 始 位 置 的 物理 地 址 。 为 了 找到 想 要 的 PTE 的 位 置 ， 硬 件 将 执行 以 下 功 





台 马 


VP = (VirtualAddress & VPN MASK) >> SHIET 
PTEAddr = PageTableBaseRegister + (VPN * sizeof (PTE)) 











在 我 们 的 例子 中 ，VPN MASK 将 被 设置 为 0x30 十 六 进 制 30， 或 二 进 制 
110000) ， 它 从 完整 的 虚拟 地 址 中 挑选 出 VPN 位 ;SHIFT 设 置 为 4( 偏 移 
量 的 位 数 ) ， 这 样 我 们 就 可 以 将 VPN 位 向 右 移动 以 形成 正确 的 整数 虚拟 
页 码 。 例 如 ， 使 用 虚拟 地 址 21 (010101)，， 掩 码 将 此 值 转换 为 
010000， 移 位 将 它 变 成 01， 或 虚拟 页 1， 正 是 我 们 期 望 的 值 。 然 后 ， 我 
们 使 用 该 值 作为 页 表 基 址 寄存 器 指 癌 的 PTE 数 组 的 索引 。 


一 旦 知道 了 这 个 物理 地 址 ， 硬 件 就 可 以 从 内 存 中 获取 PTE， 提 取 PFN， 
并 将 它 与 来 自 虚拟 地 址 的 偏 移 量 连接 起 来 ， 形 成 所 需 的 物理 地 址 。 具 
体 来 说 ， 你 可 以 想象 PFN 被 SHIFT 左 移 ， 然 后 与 偏 移 量 进行 逻辑 或 运 
算 ， 以 形成 最 终 地 址 ， 如 图 18. 6 所 示 。 






























































offset = VirtualAddress & OFFSET MASK 

PhysAddr = (PFN << SHIFT) | offset 

a // Extract the VPN from the virtual address 

2 VPN = (VirtualAddress & VPN MASK) >> SHIFT 

3 

4 // Form the address of the page-tabl ntry (PTE) 
5 PTEAddr = PTBR + (VPN * sizeof (PTE)) 

6 

7 // Fetch the PTE 

8 PTE = AccessMemory (PTEAddr) 

9 

10 // Check if process can access the page 

汪汪 if (PTE.Valid == False) 

12 RaiseException (SEGMENTATION FAULT) 

13 else if (CanAccess (PTE .ProtectBits) == False) 
14 RaiseException (PROTECTION FAULT) 

15 else 

16 // Access is OK: form physical address and fetch it 
TL offset = VirtualAddress & OFFSET MASK 

18 PhysAddr = (PTE.PFN << PFN SHIFT) | offset 
19 








Register = AccessMemory (PhysAddr) 














图 18.6 利用 分 页 访问 内 存 


最 后 ， 硬 件 可 以 从 内 存 中 获取 所 需 的 数据 并 将 其 放 入 寄存 器 eax。 程 序 
现在 已 成 功 从 内 存 中 加 载 了 一 个 值 ! 





总 之 ， 我 们 现在 描述 了 在 每 个 内 存 引用 上 人 发生 的 情况 的 初始 协议 。 基 
本 方法 如 图 18. 6 所 示 。 对 于 每 个 内 存 引用 《无 论 是 取 指 令 还 是 显 式 加 
载 或 存储 ) ， 分 页 都 需要 我 们 执行 一 个 额外 的 内 存 引 用 ， 以 便 首先 从 
页 表 中 获取 地 址 转换 。 工 作 量 很 大 ! 额外 的 内 存 引 用 开销 很 大 ， 在 这 
种 情况 下 ， 可 能 会 使 进程 减 慢 两 倍 或 更 多 。 


现在 你 应 该 可 以 看 到 ， 有 两 个 必须 解决 的 实际 问题 。 如 果 不 仔细 设计 
硬件 和 软件 ， 页 表 会 导致 系统 运行 速度 过 慢 ， 并 占用 太 多 内 存 。 虽 然 
0 
必须 先 殉 服 。 


18.5 内 存 追 踪 








在 结束 之 前 ， 我 们 现在 通过 一 个 简单 的 内 存 访问 示例 ， 来 演示 使 用 分 
页 时 产生 的 所 有 内 存 访问 。 我 们 感 兴趣 的 代码 请 段 〈 用 C 写 的 ， 名 为 


array.c) 是 这 样 的 : 





int array[1000]; 


for (i = 0; i < 1000; i++) 
array[il = 0; 


我 们 编译 array. c 并 使 用 以 下 命令 运行 它 : 


补充 : 数据 结构 一 一 页 表 


现代 操作 系统 的 内 存 管理 子 系 统 中 最 重要 的 数据 结构 之 一 就 
是 页 表 (page table) 。 通 常 ， 页 表 存 储 虚 拟 一 物理 地 址 转 
换 (virtual-to-physical address translation) ， 从 而 让 
系统 知道 地 址 空间 的 每 个 页 实际 驻 留 在 物理 内 存 中 的 哪个 位 
置 。 由 于 每 个 地 址 空间 都 需要 这 种 转换 ， 因 此 一 般 来 说 ， 系 
统 中 每 个 进程 都 有 一 个 页 表 。 页 表 的 确切 结构 要 么 由 硬件 
( 旧 系 统 ) 确定 ， 要 么 由 0S〔 现 代 系 统 ) 更 灵活 地 管理 。 








prompt> gcc -oO array array.C -Wall -0 
prompt> ./array 


当然 ， 为 了 真正 理解 这 个 代码 片段 〈 它 只 是 初始 化 一 个 数组 ) 进程 怎 
样 的 内 存 访 问 ， 我 们 必须 知道 (或 假设 ) 一 些 东 西 。 首 先 ， 我 们 必须 
反 汇 编 结果 二 进 制 文件 (在 Linux 上 使 用 objdump 或 在 Mac 上 使 用 
otool1) ， 碍 看 使 用 什么 汇编 指令 来 初始 化 循环 中 的 数组 。 以 下 是 生成 
的 汇编 代码 : 

Ox1024 movl $0Ox0, (Sedi,%Seax,4) 


0x102c cmpl $0x03e8,%eax 
0x1030 jne 0x1024 





如 果 懂 一 点 x86， 代 码 实际 上 很 容易 理解 :24。 第 一 条 指令 将 零 值 〈 显 示 
为 $0x0) 移动 到 数组 位 置 的 虚拟 内 存 地 址 ， 这 个 地 址 是 通过 取 %edi 的 
内 容 并 将 其 加 上 %eax 乘 以 4 来 计算 的 。 因 此 ，%edi 保 存 数组 的 基 址 ， 
而 %eax 保 存 数组 索引 (i) 。 我 们 乘 以 4， 因 为 数组 是 一 个 整 型 数组 ， 
每 个 元 素 的 大 小 为 4 个 字 节 。 


第 二 条 指令 增加 保存 在 %eax 中 的 数组 索引 ， 第 三 条 指令 将 该 寄存 器 的 
内 容 与 十 六 进 制 值 0x03e8 或 十 进 制 数 1000 进 行 比较 。 如 果 比 较 结果 显 
示 两 个 值 不 相等 (这 就 是 jne 指 令 测 试 ) ， 第 四 条 指令 跳 回 到 循环 的 
顶部 。 


为 了 理解 这 个 指令 序列 (在 虚拟 层 和 物理 层 〉 所 访问 的 内 存 ， 我 们 必 
须 假设 虚拟 内 存 中 代码 片段 和 数组 的 位 置 ， 以 及 页 表 的 内 容 和 位 置 。 


对 于 这 个 例子 ， 我 们 假设 一 个 大 小 为 64KB 的 虚拟 地 址 空间 (不 切实 际 
地 小 ) 。 我 们 还 假定 页 面 大 小 为 IKB。 


我 们 现在 需要 知道 页 表 的 内 容 ， 以 及 它 在 物理 内 存 中 的 位 置 。 假 设 有 
一 个 线性 (基于 数组 的 页 表 ， 它 位 于 物理 地 址 1KB (1024) 。 


至 于 其 内 容 ， 我 们 只 需要 关心 为 这 个 例子 映射 的 几 个 虚拟 页 面 。 首 
先 ， 存 在 代码 所 在 的 虚拟 页 面 。 由 于 页 大 小 为 1KB， 虚 拟 地 址 1024 驻 留 
在 虚拟 地 址 空间 的 第 二 页 (VPN = 1， 因 为 VPN = 0 是 第 一 页 ) 。 假 设 
这 个 虚拟 页 映射 到 物理 帧 4 (VPN 1 一 PFN 4) 。 





接 下 来 是 数组 本 身 。 它 的 大 小 是 4000 字 节 (1000 整 数 ) ， 我 们 假设 它 
驻 留 在 虚拟 地 址 40000 到 44000 (不 包括 最 后 一 个 字 节 ) 。 它 的 虚拟 页 
的 十 进 制 范围 是 VPN = 39……VPN = 42。 因 此 ， 我 们 需要 这 些 页 的 映 
射 。 针 对 这 个 例子 ， 让 我 们 假设 以 下 虚拟 到 物理 的 映射 : 


(VPN 39 — PFN 7), (VPN 40 — PFN 8), (VPN 41 — PFN 9)， 
(VPN 42 一 PFN 10) 


我 们 现在 准备 好 跟 踩 程 序 的 内 存 引 用 了 。 当 它 运 行 时 ， 每 个 获取 指 将 
产生 两 个 内 存 引 用 : 一 个 访问 页 表 以 查找 指令 所 在 的 物理 框架 ， 为 一 
个 访问 指令 本 喘 将 其 提取 到 CPU 进 行 处 理 。 男 外 ， 在 mov 指 令 的 形式 
中 ， 有 一 个 显 式 的 内 存 引 用 ， 这 会 首先 增加 为 一 个 页 表 访 问 〈 将 数组 
虚拟 地 址 转换 为 正确 的 物理 地 址 ) ， 然 后 时 数组 访问 本 身 。 


图 18.7 展 示 了 前 5 次 循环 迭代 的 整个 过 程 。 最 下 面 的 图 显示 了 zy 轴 上 的 
旨 令 内 存 引 用 《黑色 虚拟 地 址 和 右边 的 实际 物理 地 址 ) 。 中 间 的 图 以 
深 灰 色 展 示 了 数组 访问 《同样 ， 虚 拟 在 左 侧 ， 物 理 在 右 侧 ) ; 最 后 ， 
最 上 面 的 图 展示 了 浅 灰 色 的 页 表 内 存 访问 〈 只 有 物理 的 ， 因 为 本 例 中 
的 页 表 位 于 物理 内 存 中 ) 。 整 个 追踪 的 x 轴 显 示 循 环 的 前 5 个 迭代 中 内 
存 访 问 。 每 个 循环 有 10 次 内 存 访 问 ， 其 中 包括 4 次 取 指 令 ， 一 次 显 式 更 
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图 18.7 虚拟 (和 物理 ) 内 存 追 踪 
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看 看 你 是 否 可 以 理解 在 这 个 可 视 化 中 出 现 的 模式 。 特 别 是 ， 随 着 循环 
继续 ， 超 过 前 5 次 迭代 ， 会 发 生 什么 变化 ? 哪些 新 的 内 存 位 置 将 被 访 
问 ? 你 能 乔 明白 吗 ? 


这 只 是 最 简单 的 例子 〈《 只 有 几 行 C 代 码 ) ， 但 你 可 能 已 经 能 够 感觉 到 理 
解 实际 应 用 程序 的 实际 内 存 行为 的 复杂 性 。 别 担心 : 它 肯定 会 变 得 更 
糟 ， 因 为 我 们 即将 引入 的 机 制 只 会 使 这 个 已 经 很 复杂 的 机 器 更 复杂 。 














18.6 小 结 





我 们 已 经 引入 了 分 页 (paging) 的 概念 ， 作 为 虚拟 内 存 挑战 的 解决 方 
案 。 与 以 前 的 方法 〈 如 分 段 ) 相 比 ， 分 页 有 许多 优点 。 首 先 ， 它 不 会 
导致 外 部 碎片 ， 因 为 分 页 〈 按 设计 ) 将 内 存 划 分 为 固定 大 小 的 单元 。 
其 次 ， 它 非常 赤 活 ， 文 持 黎 蕊 虚拟 地 址 空间 。 


然而 ， 实 现 分 页 支持 而 不 小 心 考虑 ， 会 导致 较 慢 的 机 器 (有 许多 额外 
的 内 存 访问 来 访问 页 表 ) 和 内 存 浪费 (内 存 被 页 表 鹤 满 而 不 是 有 用 的 
应 用 程序 数据 ) 。 因 此 ， 我 们 不 得 不 努力 想 出 一 个 分 页 系统 ， 它 不 仅 
a 
可 去 做 。 
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本 文 是 一 些 重要 计算 机 系统 发 展 历史 的 回顾 。 我 们 在 美国 有 时 会 访 
记 ， 这 些 新 想法 中 的 许多 来 自 其 他 国家 。 





作业 


在 这 个 作业 中 ， 你 将 使 用 一 个 简单 的 程序 (名 为 paging-linear- 
translate. py) ， 来 看 看 你 是 否 理解 了 简单 的 虚拟 一 物理 地 址 转换 如 
何 与 线性 页 表 一 起 工作 。 详 情 请 参阅 README 文 件 。 





问题 


1. 在 做 地 址 转换 之 前 ， 让 我 们 用 模拟 器 来 研究 线性 页 表 在 给 定 不 同 参 
数 的 情况 下 如 何 改变 大 小 。 在 不 同 参数 变化 时 ， 计 算 线 性 页 表 的 大 
ne” 
贝 表 项 。 


首先 ， 要 理解 线性 页 表 大 小 如 何 随 着 地 址 空间 的 增长 而 变化 : 





paging-linear-translate.py -P lk -a lm -p 512m -v -n 0 
paging-linear-translate.py -P lk -a 2m -p 512m -v -n 0 
paging-linear-translate.py -P lk -a 4m -p 512m -v -n 0 


然后 ， 理 解 线性 页 面 大 小 如 何 随 页 大 小 的 增长 而 变化 : 


paging-linear-translate.py -P lk -a lm -p 512m -v -n 0 
paging-linear-translate.py -P 2k -a lm -p 512m -v -n 0 
paging-linear-translate.py -P 4k -a lm -p 512m -v -n 0 


在 运行 这 些 命令 之 前 ， 请 试 着 想 想 预期 的 趋势 。 页 表 大 小 如 何 随 地 址 
空间 的 增长 而 改变 ? 随 着 页 大 小 的 增长 呢 ? 为 什么 一 般 来 说 ， 我 们 不 
应 该 使 用 很 大 的 页 呢 ? 


2. 现在 让 我 们 做 一 些 地 址 转换 。 从 一 些小 例子 开始 ， 使 用 -u 标 志 更 改 
分 配给 地 址 空间 的 页 数 。 例 如 : 


paging-linear-translate.py -P lk -a 16k -p 32k -v -u 0 
paging-linear-translate.py -P lk -a 16k -p 32k -Vv -u 25 
paging-linear-translate.py -P lk -a 16k -p 32k -v -u 50 
paging-linear-translate.py -P lk -a 16k -p 32k -Vv -u 75 
paging-linear-translate.py -P lk -a 16k -p 32k -V -u 100 


如 果 增 加 每 个 地 址 空间 中 的 页 的 百分比 ， 会 发 生 什么 ? 


3. 现在 让 我 们 尝试 一 些 不 同 的 随机 种 子 ， 以 及 一 些 不 同 的 (有 时 相当 
疯狂 的 ) 地址 空间 参数 : 


paging-linear-translate.py -P 8 -a 32 -p 1024 -v -s 1 
paging-linear-translate.py -P 8k -a 32k -Pb lm -Vv -s 2 
paging-linear-translate.py -P lm -a 256m -p 512m -v -s 3 


哪些 参数 组 合 是 不 现实 的 ? 为 什么 ? 


4. 利用 该 程序 尝试 其 他 一 些 问题 。 你 能 找到 让 程序 无 法 工作 的 限制 
吗 ? 例如 ， 如 果 地 址 空间 大 小 大 于 物理 内 存 ， 会 发 生 什么 情况 ? 


[1]， 64 位 地 址 空间 很 难 想 象 ， 它 大 得 惊人 。 类 比 可 能 有 助 于 理解 :如 
果 说 32 位 地 址 空间 有 网 球场 那么 大 ， 则 64 位 地 址 空间 大 约 与 欧洲 的 面 
积 大 小 相当 ! 


[2]， 我 们 在 这 里 隐瞒 了 一 点 事实 ,假设 每 条 指令 的 大 小 都 是 4 字 市 ， 
实际 上 ，x86 指 令 是 可 变 大 小 的 。 


第 19 章 “分 页 : 快速 地 址 转换 (TLB) 


使 用 分 页 作为 核心 机 制 来 实现 虚拟 内 存 ， 可 能 会 带 来 较 高 的 性 能 开 
销 。 因 为 要 使 用 分 页 ， 就 要 将 内 存 地 址 空间 切 分 成 大 量 固 定 大 小 的 单 
元 (页 ) ， 并 且 需 要 记录 这 些 单 元 的 地 址 映射 信息 。 因 为 这 些 映射 信 
奶 一 般 存 储 在 物理 内 存 中 ， 所 以 在 转换 虚拟 地 址 时 ， 分 页 逻辑 上 需要 
一 次 额外 的 内 存 访问 。 每 次 指令 获取 、 显 式 加 载 或 保存 ， 都 要 额外 读 
一 次 内 存 以 得 到 转换 信息 ， 这 慢 得 无 法 接受 。 因 此 我 们 面临 如 下 问 


题 : 


关键 问题 : 如 何 加 速 地 址 转换 


如 何 才能 加 速 虚 拟 地 址 转换 ， 尽 量 避 免 额 外 的 内 存 访 问 ? 需 
要 什么 样 的 硬件 支持 ? 操作 系统 该 如 何 支 持 ? 





想 让 某 些 东 西 更 快 ， 操 作 系 统 通常 需要 一 些 帮 助 。 帮 助 常常 来 自 操作 
系统 的 老 朋 友 : 硬件。 我 们 要 增加 所 谓 的 (由 于 历史 原因 [CP78]〉 地 
址 转换 和 劳 路 缓冲 存储 器 ( translation-lookaside buffer ， 
TLB[CG68, C95] ) ， 它 就 是 频繁 发 生 的 虚拟 到 物理 地 址 转换 的 硬件 缓存 
(cache ) 。 因 此 ， 更 好 的 名 称 应 该 是 地 址 转换 缓存 (address- 
translation cache) 。 对 每 次 内 存 访问 ， 硬 件 先 检 查 TLB， 看 看 其 中 
是 否 有 期 望 的 转换 映射 ， 如 果 有 ， 就 完成 转换 (很 快 ) ， 不 用 访问 页 
表 〈 其 中 有 全 部 的 转换 映射 ) 。TLB 带 来 了 巨大 的 性 能 提升 ， 实 际 上 ， 
因此 它 使 得 虚拟 内 存 成 为 可 能 [C95]。 





19. 1 TLB 的 基本 算法 


图 19. 1 展示 了 一 个 大 体 框架 ， 说 明 硬 件 如 何 处 理 虚 拟 地 址 转换 ， 假 定 
使 用 简单 的 线性 页 表 (linear page table， 即 页 表 是 一 个 数组 ) 和 硬 
件 管理 的 TLB (hardware-managed TLB， 即 硬件 承担 许多 页 表 访 问 的 责 
任 ， 下 面 会 有 更 多 解释 ) 。 







































































业 VPN = (VirtualAddress & VPN MASK) >> SHIET 

这 (Success, TlbEntry) = TLB Lookup (VPN) 

3 if (Success == True) // TLB Hit 

4 if (CanAccess (TlbEntry.ProtectBits) == True) 
3 Offset = VirtualAddress & OFFSET MASK 
6 PhysAddr = (TlbEntry.PFN << SHIFT) | Offset 
元 AccessMemory (PhysAddr) 

8 else 

9 RaiseException (PROTECTION FAULT) 

12:0 else // TLB Miss 

11 PTEAddr = PTBR + (VPN * sizeof (PTE)) 

12 PTE = AccessMemory (PTEAddr) 

3 if (PTE.Valid == False) 

14 RaiseException (SEGMENTATION FAULT) 

3 else if (CanAccess (PTE.ProtectBits) == False) 
:6 RaiseException (PROTECTION FAULT) 

1 else 

18 TLB Insert (VPN, PTE.PFN, PTE.ProtectBits) 
9. RetryInstruction() 














图 19. 1 TLB 控 制 流 算法 


硬件 算法 的 大 体 流 程 如 下 : 首先 从 虚拟 地 址 中 提取 页 号 CVPN) 〈 见 图 
19. 1 第 1 行 )， 然 后 检查 TLB 是 否 有 该 VPN 的 转换 映射 (第 2 行 ) 。 如 果 
有 ， 我 们 有 了 TLB 命 中 (TLB hit) ， 这 意味 着 TLB 有 该 页 的 转换 映射 。 
成 功 ! 接 下 来 我 们 就 可 以 从 相关 的 TLB 项 中 取出 页 帧 号 (PFN) ， 与 原 
来 虚拟 地 址 中 的 偏 移 量 组 合 形 成 期 望 的 物理 地 址 (PA，， 并 访问 内 存 
(第 5 一 7 行 ) ， 假 定 保 护 检查 没有 失败 〈 第 4 行 ) 。 


如 果 CPU 没 有 在 TLB 中 找到 转换 映射 〈TLB 未 命中 ) ， 我 们 有 一 些 工 作 要 
做 。 在 本 例 中 ， 硬 件 访 问 页 表 来 寻找 转换 映射 〈 第 11 一 12 行 ) ， 并 用 
该 转换 映射 更 新 TLB (第 18 行 )， 假 设 该 虚拟 地 址 有 效 ， 而 且 我 们 有 相 
关 的 访问 权限 (第 13、15 行 )。 上 述 系 列 操作 开销 较 大 ， 主 要 是 因为 
访问 页 表 需 要 额外 的 内 存 引 用 (第 12 行 )。 最 后 ， 当 TLB 更 新 成 功 后 ， 
A 这 时 TLB 中 有 了 这 个 转换 上 映射， 内存 引用 得 到 
很 快 处 理 。 


TLB 和 其 他 缓存 相似 ， 前 提 是 在 一 般 情 况 下 ， 转 换 映 射 会 在 缓存 中 《〈 即 
命中 ) 。 如 果 是 这 样 ， 只 增加 了 很 少 的 开销 ， 因 为 TLB 处 理 器 核心 附 
近 ， 设 计 的 访问 速度 很 快 。 如 果 TLB 未 命中 ， 就 会 带 来 很 大 的 分 页 开 























销 。 必 须 访问 页 表 来 查找 转换 上 映射， 导致 一 次 额外 的 内 存 引用 《或 者 
更 多 ， 如 果 页 表 更 复杂 ) 。 如 果 这 经 常 发 生 ， 程 序 的 运行 就 会 显 音 变 
慢 。 相 对 于 大 多 数 CPU 指令 ， 内 存 访 问 开 销 很 大 ，TLB 未 命中 导致 更 多 
内 存 访问 。 因 此 ， 我 们 希望 尽 可 能 避免 TLB 未 命中 。 


19.2 示例 : 访问 数组 


为 了 和 弄 清 楚 TLB 的 操作 ， 我 们 来 看 一 个 简单 虚拟 地 址 追踪 ， 看 看 TLB 如 
何 提 高 它 的 性 能 。 在 本 例 中 ， 假 设 有 一 个 由 10 个 4 字 节 整 型 数组 成 的 数 
组 ， 起 始 虚 地 址 是 100。 进 一 步 假 定 ， 有 一 个 8 位 的 小 虚 地 址 空间 ， 页 
大 小 为 16B。 我 们 可 以 把 虚 地 址 划分 为 4 位 的 VPN (有 16 个 虚拟 内 存 页 ) 
和 4 位 的 偏 移 量 (每 个 页 中 有 16 个 字 节 )。 
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图 19.2 示例 :小 地 址 空间 中 的 一 个 数组 


图 19. 2 展示 了 该 数组 的 布局 ， 在 系统 的 16 个 16 字 节 的 页 上 。 如 你 所 
见 ， 数 组 的 第 一 项 (a[0] ) 开始 于 (VPN=06，offset=04) ， 只 有 3 个 4 
字 节 整 型 数 存放 在 该 页 。 数 组 在 下 一 页 (VPN=07) 继续 ， 其 中 有 接 下 
来 4 项 (al3] … a[6] ) 。10 个 元 素 的 数组 的 最 后 3 项 (al7] … 
a[9] ) 位 于 地 址 空间 的 下 一 页 CVPN=08) 。 


人 
了 : 


int sum = 0; 
for (i 三 207 汪 区 工 07 十 +) { 
sum += al[il]; 


} 


简单 起 见 ， 我 们 假装 循环 产生 的 内 存 访 问 只 是 针对 数组 (忽略 变量 1 和 
sum， 以 及 指令 本 身 ) 。 当 访问 第 一 个 数组 元 素 〈(a[l0] ) 时 ，CPU 会 看 
到 载 入 虚 存 地 址 100。 硬 件 从 中 提取 VPN (VPN=06， ， 然 后 用 它 来 检查 
TLB， 寻 找 有 效 的 转换 映射 。 假 设 这 里 是 程序 第 一 次 访问 该 数组 ， 结 果 
是 TLB 未 命中 。 


接 下 来 访问 a[1]， 这 里 有 好 消息 ，TLB 命 中 ! 因为 数组 的 第 二 个 元 素 在 
第 一 个 元 素 之 后 ， 它 们 在 同一 页 。 因 为 我 们 之 前 访问 数组 的 第 一 个 元 
素 时 ， 已 经 访问 了 这 一 页 ， 所 以 TLB 中 缓存 了 该 页 的 转换 映射 。 因 此 成 
荔 命 中 。 访 问 a[2 同样 成 功 《再 次 命中 ， 因 为 它 和 af0]、a[1] 位 于 
中” 人。 


遗憾 的 是 ， 当 程序 访问 al3] 时 ， 会 导致 TLB 未 命中 。 但 同样 ， 接 下 来 几 
项 (a[4] … a[6] ) 都 会 命中 TLB， 因 为 它们 位 于 内 存 中 的 同一 页 。 


最 后 ， 访 问 aL7j 会 导致 最 后 一 次 TLB 未 命中 。 系 统 会 再 次 查找 页 表 ， 弄 
清楚 这 个 虚拟 页 在 物理 内 存 中 的 位 置 ， 并 相应 地 更 新 TLB。 最 后 两 次 访 
问 (a[8] 、al9] ) 受益 于 这 次 TLB 更 新 ， 当 硬件 在 TLB 中 查找 它们 的 转 
换 了 映射 时 ， 两 次 都 命中 。 


我 们 来 总 结 一 下 这 10 次 数组 访问 操作 中 TLB 的 行为 表现 ， 未 命中 、 命 
中 、 命 中 、 未 命中 、 命 中 、 命 中 、 命 中 、 未 命中 、 命 中 、 命 中 。 命 中 
的 次 数 除 以 总 的 访问 次 数 ， 得 到 TLB 命 中 率 (hit rate》 为 70%。 尽 管 











这 不 是 很 高 “实际 上 ， 我 们 希望 命中 率 接近 100%) ， 但 也 不 是 零 ， 是 
零 我 们 就 要 奇怪 了 。 即 使 这 是 程序 首次 访问 该 数组 ， 但 得 益 于 空间 局 
部 性 (spatial locality) ，TLB 还 是 提高 了 性 能 。 数 组 的 元 素 被 紧密 
存放 在 几 页 中 《〈 即 它们 在 空间 中 紧密 相 邻 ) ， 因 此 只 有 对 页 中 第 一 个 
元 素 的 访问 才 会 导致 TLB 未 命中 。 


也 要 注意 页 大 小 对 本 例 结果 的 影响 。 如 果 页 大 小 变 大 一 倍 〈32 字 节 ， 
而 不 是 16) ， 数 组 访问 过 到 的 未 命中 更 少 。 典 型 页 的 大 小 一 般 为 4KB， 
这 种 情况 下 ， 密 集 的 、 基 于 数组 的 访问 会 实现 极 好 的 TLB 性 能 ， 每 页 的 
访问 只 会 遇 到 一 次 未 命中 。 


关于 TLB 性 能 还 有 最 后 一 点 : 如 果 在 这 次 循环 后 不 入 ， 访 程序 再 次 访问 
该 数组 ， 我 们 会 看 到 更 好 的 结果 ， 假 设 TLB 足 够 大 ， 能 缓存 所 需 的 转换 
映射 : 命中 、 命 中、 命中 、 命 中、 命中 、 命 中、 命中 、 命 中、 命中 、 
命中 。 在 这 种 情况 下 ， 由 于 时 间 局 部 性 〈temporal locality) ， 即 在 
短 时 间 内 对 内 存 项 再 次 引用 ， 所 以 TLB 的 命中 率 会 很 高 。 类 似 其 他 组 
存 ，TLB 的 成 功 依赖 于 空间 和 时 间 局 部 性 。 如 果 某 个 程序 表现 出 这 样 的 
局 部 性 〈 许 多 程序 是 这 样 ) ，TLB 的 命中 率 可 能 很 高 。 














提示 : 尽 可 能 利用 缓存 


绥 存 是 计算 机 系统 中 最 基本 的 性 能 改进 技术 之 一 ， 一 次 又 一 
次 地 用 于 让 “常见 的 情况 更 快 ”[HP06] 。 硬 件 缓存 背后 的 思 
想 是 利用 指令 和 数据 引用 的 局 部 性 (locality) 。 通 常 有 两 
种 局 部 性 : 时 间 局 部 性 (temporal locality) 和 空间 局 部 性 
(spatial locality) 。 时 间 局 部 性 是 指 ， 最 近 访 问 过 的 指 
令 或 数据 项 可 能 很 快 会 再 次 访问 。 想 想 循环 中 的 循环 变量 或 
指令 ， 它 们 被 多 次 反复 访问 。 空 间 局 部 性 是 指 ， 当 程序 访问 
内 存 地 址 x 时 ， 可 能 很 快 会 访问 邻近 x 的 内 存 。 想 想 近 历 某 种 
数组 ， 访 问 一 个 接 一 个 的 元 素 。 当 然 ， 这 些 性 质 取决 于 程序 
的 特点 ， 并 不 是 绝对 的 定律 ， 而 更 像 是 一 种 经 验 法 则 。 


硬件 缓存 ， 无 论 是 指令 、 数 据 还 是 地 址 转换 《〈 如 TLB) ， 都 利 
用 了 局 部 性 ， 在 小 而 快 的 蕊 片 内 存储 器 中 保存 一 份 内 存 副 
本 。 处 理 器 可 以 先 检查 缓存 中 是 否 存 在 就 近 的 副本 ， 而 不 是 
必须 访问 缓慢 的 ) 内 存 来 满足 请 求 。 如 果 存 在 ， 处 理 占 就 











可 以 很 快 地 访问 它 《〈“ 例 如 在 几 个 CPU 时 钟 内 ) ， 避 免 花 很 多 时 
间 来 访问 内 存 〈 好 多 纳 秒 ) 。 


你 可 能 会 疑惑 : 既然 像 TLB 这 样 的 缓存 这 么 好 ， 为 什么 不 做 更 
大 的 缓存 ， 疙 下 所 有 的 数据 ? 可 异 的 是 ， 这 里 我 们 过 到 了 更 
基本 的 定律 ， 就 像 物理 定律 那样 。 如 果 想 要 快速 地 缓存 ， 它 
就 必须 小 ， 因 为 光速 和 其 他 物理 限制 会 起 作用 。 大 的 缓存 注 
定 慢 ， 因 此 无 法 实现 目的 。 所 以 ， 我 们 只 能 用 小 而 快 的 组 
存 。 剩 下 的 问题 就 是 如 何 利 用 好 缓存 来 提升 性 能 。 


19. 3 ” 谁 来 处 理 TLB 未 命中 


有 一 个 问题 我 们 必须 回答 : 谁 来 处 理 TLB 未 命中 ?可 能 有 两 个 答案 : 硬 
件 或 软件 (操作 系统 ) 。 以 前 的 硬件 有 复杂 的 指令 集 (有 时 称 为 复杂 
指令 集 计 算 机 ，Complex-Instruction Set Computer ，CISC) ， 造 硬 
件 的 人 不 太 相 信 那 些 搞 操作 系统 的 人 人。 因此， 硬件 全 权 处 理 TLB 未 命 
中 。 为 了 做 到 这 一 点 ， 硬 件 必 须知 道 页 表 在 内 存 中 的 确切 位 置 〈 通 过 
页 表 基 址 寄存 器 ，page-table base register， 在 图 19. 1 的 第 11 行 使 
用 ) ， 以 及 页 表 的 确切 格式 。 发 生 未 命中 时 ， 硬 件 会 “ 亿 历 ”页 表 ， 
找到 正确 的 页 表 项 ， 取 出 想 要 的 转换 映射 ， 用 它 更 新 TLB， 并 重 试 该 指 
令 。 这 种 “ 旧 ” 体 系 结构 有 硬件 管理 的 TLB， 一 个 例子 是 x86 架 构 ， 它 
采用 固定 的 多 级 页 表 (multi-level page table， 详 见 第 20 章 ) ， 当 
前 页 表 由 CR3 寄 存 器 指出 [109]。 


更 现代 的 体系 结构 (例如 ，MIPS R10k[H93] 、Sun 公 司 的 SPARC 
v9[WG00] ， 都 是 精简 指令 集 计 算 机 ，Reduced-Instruction Set 
Computer ，RISC ) ， 有 所 谓 的 软件 管理 TLB (software- managed 
TLB) 。 发 生 TLB 未 命中 时 ， 硬 件 系统 会 抛 出 一 个 异常 〈 见 图 19. 3 第 11 
行 ) ， 这 会 暂停 当前 的 指令 流 ， 将 特权 级 提升 至 内 核 模式 ， 跳 转 至 陷 
阱 处 理 程序 〈trap handler ) 。 接 下 来 你 可 能 已 经 猜 到 了 ， 这 个 陷阱 
处 理 程序 是 操作 系统 的 一 段 代 码 ， 用 于 处 理 TLB 未 命中 。 这 段 代 码 在 运 
行 时 ， 会 查找 页 表 中 的 转换 映射 ， 然 后 用 特别 的 “特权 ”指令 更 新 
TLB， 并 从 陷阱 返回 。 此 时 ， 硬 件 会 重 试 该 指令 (导致 TLB 命 中 )。 








VPN = (VirtualAddress & VPN MASK) >> SHIFT 

















1 

2 (Success, TlbEntry) = TLB Lookup (VPN) 

3 if (Success == True) // TLB Hit 

4 if (CanAccess (TlbEntry.ProtectBits) == True) 
3 Offset = VirtualAddress & OFFSET MASK 
6 PhysAddr = (TlbEntry.PFN << SHIFT) | Offset 
7 Register = AccessMemory (PhysAddr) 

8 else 

9 RaiseException (PROTECTION FAULT) 

10 else // TLB Miss 

11 RaiseException (TLB MISS) 








图 19. 3 TLB 控 制 流 算法 (操作 系统 处 理 ) 


接 下 来 讨论 几 个 重要 的 细节 。 首 先 ， 这 里 的 从 陷阱 返回 指令 稍稍 不 同 
于 之 前 提 到 的 服务 于 系统 调用 的 从 陷阱 返回 。 在 后 一 种 情况 下 ， 从 陷 
阱 返回 应 该 继续 执行 陷入 操作 系统 之 后 那 条 指令 ， 就 像 从 函数 调用 返 
回 后 ， 会 继续 执行 此 次 调用 之 后 的 语句 。 在 前 一 种 情况 下 ， 在 从 TLB 未 
命中 的 陷阱 返回 后 ， 硬 件 必 须 从 导致 陷阱 的 指令 继续 执行 。 这 次 重 试 
因此 导致 该 指令 再 次 执行 ， 但 这 次 会 命中 TLB。 因 此 ， 根 据 陷阱 或 异常 
的 原因 ， 系 统 在 陷入 内 核 时 必须 保存 不 同 的 程序 计数 器 ， 以 便 将 来 能 
够 正确 地 继续 执行 。 


第 二 ， 在 运行 TLB 未 命中 处 理 代 码 时 ， 操 作 系 统 需 要 格外 小 心 避免 引起 
TLB 未 命中 的 无 限 递 归 。 有 很 多 解决 方案 ， 例 如 ， 可 以 把 TLB 未 命中 了 
阱 处 理 程序 直接 放 到 物理 内 存 中 [它们 没有 映射 过 (unmapped) ， 不 
用 经 过 地 址 转换 ] 。 或 者 在 TLB 中 保留 一 些 项 ， 记 录 永 从 有 效 的 地 址 转 
换 ， 并 将 其 中 一 些 永久 地 址 转换 模块 留 给 处 理 代 码 本 身 ， 这 些 被 监听 
的 《wired) 地 址 转换 总 是 会 命中 TLB。 


软件 管理 的 方法 ， 主 要 优势 是 灵活 性 : 操作 系统 可 以 用 任意 数据 结构 
来 实现 页 表 ， 不 需要 改变 硬件 。 男 一 个 优势 是 简单 性 。 从 TLB 控 制 流 中 
可 以 看 出 〈 见 图 19. 3 的 第 11 行 ， 对 比 图 19. 1 的 第 11 一 19 行 ) ， 硬 件 不 
需要 对 未 命中 做 太 多 工作 ， 它 抛 出 异常 ， 操 作 系 统 的 未 命中 人 处理 程序 
会 负责 剩 下 的 工作 。 


























补充 ，RISC 与 CISC 


在 20 世 纪 80 年 代 ， 计 算 机 体系 结构 领域 曾 发 生 过 一 场 激 烈 的 
讨论 。 一方 是 CISC 阵 营 ， 即 复杂 指令 集 计 算 (Complex 


Instruction Set Computing) ， 另 一 方 是 RISC， 即 精简 指令 
集 计 算 (Reduced Instruction Set Computing ) [PS81] 。 
RISC 阵营 以 Berkeley 的 David Patterson 和 Stanford 的 
John Hennessy 为 代表 (他 们 写 了 一 些 非常 著名 的 书 
[HP06] ) ， 尽 管 后 来 John Cocke 和 凭借 他 在 RISC 上 的 早期 工作 
[CM00] 获 得 了 图 灵 奖 。 


CISC 指令 集 倾向 于 拥有 许多 指令 ， 每 条 指令 比较 强大 。 例 
如 ， 你 可 能 看 到 一 个 字符 串 找 贝 ， 它 接受 两 个 指针 和 一 个 长 
度 ， 将 一 些 字 节 从 源 拷贝 到 目标 。CISC 背 后 的 思想 是 ， 指 令 
区 必 届 才情 情人 则 是 休 放 证 才 全 肝 人 合生 二 
侯 。 


RISC 指令 集 恰恰 相反 。RISC 背后 的 关键 观点 是 ， 指 令 集 实 
际 上 是 编译 器 的 最 终 目 标 ， 所 有 编译 器 实际 上 需要 少量 简单 
的 原 语 ， 可 以 用 于 生成 高 性 能 的 代码 。 因 此 ，RISC 倡 导 者 们 
主张 ， 尽 可 能 从 硬件 中 拿 掉 不 必要 的 东西 (尤其 是 微 代 
码 ) ， 让 剩 下 的 东西 简单 、 统 一 、 快 速 。 


早期 的 RISC 芯片 产生 了 巨大 的 影响 ， 因 为 它们 明显 更 快 
[BC91] 。 人 们 写 了 很 多 论文 ， 一 些 相关 的 公司 相继 成 立 ( 例 
如 MIPS 和 Sun 公司 ) 。 但 随 着 时 间 的 推移 ， 像 Intel 这 
样 的 CISC 蕊 片 制 造 商 采纳 了 许多 RISC 芯片 的 优点 ， 例 如 添 
加 了 早期 流水 线 阶 段 ， 将 复杂 的 指令 转换 为 一 些微 指令 ， 于 
是 它们 可 以 像 RISC 的 方式 运行 。 这 些 创 新 ， 加 上 每 个 芯片 中 
晶体 管 数量 的 增长 ， 让 CISC 保 持 了 竞争 力 。 争 论 最 后 平息 
了 ， 现 在 两 种 类 型 的 处 理 器 都 可 以 跑 得 很 快 。 























19.4 TLB 的 内 容 


我 们 来 详细 看 一 下 硬件 TLB 中 的 内 容 。 典 型 的 TLB 有 32 项 、64 项 或 128 
项 ， 并 且 是 全 相 联 的 (fully associative) 。 基 本 上 ， 这 就 意味 着 一 


条 地 址 映射 可 能 存在 TLB 中 的 任意 位 置 ， 硬 件 会 并 行 地 查找 TLB， 找 到 
期 望 的 转换 映射 。 一 条 TLB 项 内 容 可 能 像 下 面 这 样 : 


VPN | PFN | 其 他 位 
注意 ，VPN 和 PFN 同 时 存在 于 TLB 中 ， 因 为 一 条 地 址 映射 可 能 出 现在 任意 


位 置 (用 硬件 的 术语 ，TLB 被 称 为 全 相 联 的 (fully-associative) 组 
存 ) 。 人 硬件 并 行 地 查找 这 些 项 ， 看 看 是 否 有 [匹配 。 





补充 : TLB 的 有 效 位 != 页 表 的 有 效 位 


常见 的 错误 是 混淆 TLB 的 有 效 位 和 页 表 的 有 效 位 。 在 页 表 中 ， 
如 果 一 个 页 表 项 (PTE) 被 标记 为 无 效 ， 就 意味 着 该 页 并 没有 
被 进程 申请 使 用 ， 正 常 运行 的 程序 不 应 该 访问 该 地 址 。 当 程 
序 试 图 访问 这 样 的 页 时 ， 就 会 陷入 操作 系统 ， 操 作 系 统 会 杀 
挥 该 进程 。 


TLB 的 有 效 位 不 同 ， 只 是 指出 TLB 项 是 不 是 有 效 的 地 址 映射 。 
例如 ， 系 统 启动 时 ， 所 有 的 TLB 项 通常 被 初始 化 为 无 效 状态 ， 
因为 还 没有 地 址 转换 映射 被 缓存 在 这 里 。 一 旦 启用 虚拟 内 
存 ， 当 程序 开始 运行 ， 访 问 自 己 的 虚拟 地 址 ，TLB 就 会 慢 慢 地 
被 填 满 ， 因 此 有 效 的 项 很 快 会 充满 TLB。 


TLB 有 效 位 在 系统 上 下 文 切换 时 起 到 了 很 重要 的 作用 ， 后 面 我 
们 会 进一步 讨论 。 通 过 将 所 有 TLB 项 设置 为 无 效 ， 系 统 可 以 确 
保 将 要 运行 的 进程 不 会 错误 地 使 用 前 一 个 进程 的 虚拟 到 物理 
地 址 转换 映射 。 














更 有 趣 的 是 “其 他 位 ”。 例 如 ，TLB 通 常 有 一 个 有 效 (valid) 位 ， 用 
来 标识 该 项 是 不 是 有 效 地 转换 上 映射。 通常 还 有 一 些 保护 
(protection) 位 ， 用 来 标识 该 页 是 否 有 访问 权限 。 例 如 ， 代 码 页 被 
标识 为 可 读 和 可 执行 ， 而 堆 的 页 被 标识 为 可 读 和 可 写 。 还 有 其 他 一 些 
位 ， 包 括 地 址 空间 标识 符 (address-space identifier ) 、 脏 位 
(dirty bit) 等 。 下 面 会 介绍 更 多 信息 。 

















19.5 上 下 文 切换 时 对 TLB 的 处 理 


有 了 TLB， 在 进程 间 切 换 时 《因此 有 地 址 空间 切换 ) ， 会 面临 一 些 新 问 
题 。 有 具体 来 说 ，TLB 中 包含 的 虚拟 到 物理 的 地 址 映射 只 对 当前 进程 有 
效 ， 对 其 他 进程 是 没有 意义 的 。 所 以 在 发 生 进 程 切换 时 ， 硬 件 或 操作 
CR 
地 址 映射 。 


为 了 更 好 地 理解 这 种 情况 ， 我 们 来 看 一 个 例子 。 当 一 个 进程 (P1) 正 
在 运行 时 ， 假 设 TLB 缓 存 了 对 它 有 效 的 地 址 映射 ， 即 来 自 P1 的 页 表 。 对 
这 个 例子 ， 假 设 P1 的 10 号 虚拟 页 映射 到 了 100 号 物理 帧 。 


在 这 个 例子 中 ， 假 设 还 有 一 个 进程 (P2) ， 操 作 系 统 不 久 后 决定 进行 
一 次 上 下 文 切换 ， 运 行 P2。 这 里 假定 P2 的 10 号 虚拟 页 映射 到 170 号 物理 
帧 。 如 果 这 两 个 进程 的 地 址 映射 都 在 TLB 中 ，TLB 的 内 容 如 表 19.1 所 
个。 





表 19. 1 TLB 的 内 容 


-| 
a 
LTL 


在 上 面 的 TLB 中 ， 很 明显 有 一 个 问题 : VPN 10 被 转换 成 了 PFN 
100 (P1) 和 PFN 170 (P2) ， 但 硬件 分 不 清 哪个 项 属于 哪个 进程 。 所 
以 我 们 还 需要 做 一 些 工 作 ， 让 TLB 正 确 而 高 效 地 支持 跨 多 进程 的 虚拟 
人 化。 因此， 关键 问题 是 : 














关键 问题 : 进程 切换 时 如 何 管理 TLB 的 内 容 


如 果 发 生 进程 间 上 下 文 切 换 ， 上 一 个 进程 在 TLB 中 的 地 址 映射 
对 于 即将 运行 的 进程 是 无 意义 的 。 硬 件 或 操作 系统 应 该 做 些 
什么 来 解决 这 个 问题 呢 ? 


这 个 问题 有 一 些 可 能 的 解决 方案 。 一 种 方法 是 在 上 下 文 切换 时 ， 简 单 
地 清空 (flush)〉TLB， 这 样 在 新 进程 运行 前 TLB 就 变 成 了 空 的 。 如 果 是 
软件 管理 TLB 的 系统 ， 可 以 在 发 生 上 下 文 切换 时 ， 通 过 一 条 显 式 〈 特 
权 ) 指令 来 完成 。 如 果 是 硬件 管理 TLB， 则 可 以 在 页 表 基 址 寄存 器 内 容 
发 生变 化 时 清空 TLB 〈 注 意 ， 在 上 下 文 切换 时 ， 操 作 系 统 必 须 改变 页 表 
基 址 寄存 器 (PTBR) 的 值 ) 。 不 论 哪 种 情况 ， 清 空 操 作 都 是 把 全 部 有 
效 位 (valid) 置 为 0， 本 质 上 清空 了 TLB。 


上 下 文 切换 的 时 候 清 空 TLB， 这 是 一 个 可 行 的 解决 方案 ， 进 程 不 会 再 读 
到 错误 的 地 址 映射 。 但 是 ， 有 一 定 开销 : 每 次 进程 运行 ， 当 它 访 问 数 
据 和 代码 页 时 ， 都 会 触发 TLB 未 命中 。 如 果 操 作 系统 频繁 地 切换 进程 ， 
这 种 开销 会 很 高 。 


为 了 减少 这 种 开销 ， 一 些 系 统 增 加 了 硬件 支持 ， 实 现 跨 上 下 文 切换 的 
TLB 共 享 。 比 如 有 的 系统 在 TLB 中 添加 了 一 个 地 址 空间 标识 符 (Address 
Space Identifier，ASID) 。 可 以 把 ASID 看 作 是 进程 标识 符 (Process 
Identifier，PID) ， 但 通常 比 PID 位 数 少 (PID 一 般 32 位 ，ASID 一 般 是 
8 位 ) 。 

如 果 仍 以 上 面 的 TLB 为 例 ， 加 上 ASID， 很 清楚 不 同 进程 可 以 共享 TLB 
了 : 只 要 ASID 字 段 来 区 分 原来 无 法 区 分 的 地 址 映射 。 表 19. 2 展示 了 添 
加 ASID 字 段 后 的 TLB。 


表 19.2 添加 ASID 字 段 后 的 TLB 
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因此 ， 有 了 地 址 空间 标识 符 ，TLB 可 以 同时 缓存 不 同 进 程 的 地 址 空间 映 
射 ， 没 有 任何 冲突 。 当 然 ， 硬 件 也 需要 知道 当前 是 哪个 进程 正在 运 
行 ， 以 便 进 行 地 址 转换 ， 因 此 操作 系统 在 上 下 文 切换 时 ， 必 须 将 某 个 
特权 寄存 器 设置 为 当前 进程 的 ASID。 


补充 一 下 ， 你 可 能 想到 了 男 一 种 情况 ，TLB 中 某 两 项 非常 相似 。 在 表 
1 属于 两 个 不 同 进程 的 两 项 ， 将 两 个 不 同 的 VPN 指 向 了 相同 的 物 
页 。 














表 19. 3 包含 相似 两 项 的 TLB 


本 国 呈 到 
有 用 各 
| | | 


如 果 两 个 进程 共享 同一 物理 页 〈 例 如 代码 段 的 页 ) ， 就 可 能 出 现 这 种 
情况 。 在 上 面 的 例子 中 ， 进程 P1 和 进程 P2 共 K 享 101 号 物理 页 ， 但 是 P1 将 
自己 的 10 号 虚拟 页 映射 到 该 物理 页 ， 而 P2 将 自己 的 50 号 虚拟 页 映射 到 
该 物理 页 。 共 享 代码 页 (以 二 进 制 或 共享 库 的 方式 ) 是 有 用 的 ， 因 为 
它 减少 了 物理 页 的 使 用 ， 从 而 减少 了 内 存 开销 。 

















19.6 TLB 替 换 策 略 


TLB 和 其 他 缓存 一 样 ， 还 有 一 个 问题 要 考虑 ， 即 缓存 替换 《〈cache 
replacement ) 。 上 有 具体 来 说 ， 向 TLB 中 插入 新 项 时 ， 会 蔡 换 (replace) 
一 个 旧 项 ， 这 样 问题 就 来 了 : 应 该 蔡 换 那 一 个 ? 





关键 问题 : 如 何 设计 TLB 蔡 换 策 略 


在 向 TLB 添 加 新 项 时 ， 应 该 蕉 换 哪 个 旧 项 ? 目标 当然 是 减 小 
TLB 未 命中 率 〈 或 提高 命中 率 ) ， 从 而 改进 性 能 。 








在 讨论 页 换 出 到 磁盘 的 问题 时 ， 我 们 将 详细 研究 这 样 的 策略 。 这 里 我 
们 先 简 单 指出 几 个 典型 的 策略 。 一 种 常见 的 策略 是 蔡 换 最 近 最 少 使 用 
(least-tfecently-used，LRU) 的 项 。LRU 党 试 利 用 内 存 引 用 流 中 的 局 
部 性 ， 假 定 最 近 没 有 用 过 的 项 ， 可 能 是 好 的 换 出 候选 项 。 另 一 种 典型 
策略 就 是 随机 (random) 策略 ， 即 随机 选择 一 项 换 出 去 。 这 种 策略 很 
简单 ， 并 且 可 以 避免 一 种 极端 情况 。 例 如 ， 一 个 程序 循环 访问 ntl 个 
页 ， 但 TLB 大 小 只 能 存放 nz 个 页 。 这 时 之 前 看 似 “ 合 理 ” 的 LRU 策 略 就 会 
表现 得 不 可 理喻 ， 因 为 每 次 访问 内 存 都 会 触发 TLB 未 命中 ， 而 随机 策略 
在 这 种 情况 下 就 好 很 多 。 





19.7 实际 系统 的 TLB 表 项 


最 后 ， 我 们 简单 看 一 下 真实 的 TLB。 这 个 例子 来 自 MIPS R4000[H93]， 
它 是 一 种 现代 的 系统 ， 采 用 软件 管理 TLB。 图 19. 4 展示 了 稍微 简化 的 
MIPS TLB 项 。 
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图 19. 4 ”MIPS 的 TLB 项 


MIPS R4000 文 持 32 位 的 地 址 空间 ， 页 大 小 为 4KB。 所 以 在 典型 的 虚拟 地 
址 中 ， 预 期 会 看 到 20 位 的 VPN 和 12 位 的 偏 移 量 。 但 是 ， 你 可 以 在 TLB 中 
看 到 ， 只 有 19 位 的 VPN。 事 实 上 ， 用 户 地 址 只 占 地 址 空间 的 一 半 “〈 剩 下 
的 留 给 内 核 ) ， 所 以 只 需要 19 位 的 VPN。VPN 转 换 成 最 大 24 位 的 物理 帧 
人 


MIPS TLB 还 有 一 些 有 趣 的 标识 位 。 比 如 全 局 位 (Global，G) ， 用 来 指 
示 这 个 页 是 不 是 所 有 进程 全 局 共享 的 。 因 此 ， 如 果 全 局 位 置 为 1， 束 会 
忽略 ASID 。 我 们 也 看 到 了 8 位 的 ASID ， 操 作 系 统 用 它 来 区 分 进程 空间 
〈《 像 上 面 介 绍 的 一 样 ) 。 这 里 有 一 个 问题 : 如 果 正 在 运行 的 进程 数 超 
过 256 (28) 个 怎么 办 ? 最后， 我 们 看 到 3 个 一 致 性 位 〈Coherence， 
C) ， 决 定 人 硬件 如 何 缓存 该 页 (其 中 一 位 超出 了 本 书 的 范围 ) ; 脏 位 
(dirty) ， 表 示 该 页 是 否 被 写 入 新 数据 (后 面 会 介绍 用 法 ) ; 有 效 位 
(valid) ， 告 诉 硬 件 该 项 的 地 址 映射 是 否 有 效 。 还 有 没 在 图 19. 4 中 展 
示 的 页 掩 码 (page mask) 字段 ， 用 来 支持 不 同 的 页 大 小 。 后 面 会 介 
绍 ， 为 什么 更 大 的 页 可 能 有 用 。 最 后 ，64 位 中 有 一 些 未 使 用 (图 19.4 
中 灰色 部 分 ) 。 


MIPS 的 TLB 通 常 有 32 项 或 64 项 ， 大 多 数 提供 给 用 户 进 程 使 用 ， 也 有 一 小 
部 分 留 给 操作 系统 使 用 。 操 作 系统 可 以 设置 一 个 被 监听 的 寄存 器 ， 告 
诉 硬 件 需 要 为 自己 预 留 多 少 TLB 槽 。 这 些 保留 的 转换 映射 ， 被 操作 系统 
用 于 关键 时 候 它 要 使 用 的 代码 和 数据 ， 在 这 些 时 候 ，TLB 未 命中 可 能 会 
导致 问题 〈 例 如 ， 在 TLB 未 命中 处 理 程序 中 ) 。 


由 于 MIPS 的 TLB 是 软件 管理 的 ， 所 以 系统 需要 提供 一 些 更 新 TLB 的 指 
令 。MIPS 提 供 了 4 个 这 样 的 指令 : TLBP， 用 来 查找 指定 的 转换 映射 是 否 
在 TLB 中 ; TLBR， 用 来 将 TLB 中 的 内 容 读 取 到 指定 寄存 器 中 ; TLBWI， 用 
来 蔡 换 指定 的 TLB 项 ，TLBWR， 用 来 随机 蔡 换 一 个 TLB 项 。 操 作 系 统 可 以 
用 这 些 指令 管理 TLB 的 内 容 。 当 然 这 些 指令 是 特权 指令 ， 这 很 关键 。 如 
































Re 
事情。 


提示 : RAM 不 总 是 RAM (Culler 定 律 ) 


随机 存 取 存储 器 (Random-Access Memory，RAM) 暗示 你 访问 
RAM 的 任意 部 分 都 一 样 快 。 虽 然 一 般 这 样 想 RAM 没 错 ， 但 因为 
TLB 这 样 的 人 硬件 /操作 系统 功能 ， 访 问 某 些 内 存 页 的 开销 较 
大 ， 尤 其 是 没有 被 TLB 组 存 的 页 。 因 此 ， 最 好 记 住 这 个 实现 的 
寄 门 : RAM 不 总 是 RAM。 有 时 候 随机 访问 地 址 空间 ， 尤 其 是 TLB 
没有 缓存 的 页 ， 可 能 导致 严重 的 性 能 损失 。 因 为 我 的 一 位 导 
师 David Culler 过 去 常常 指出 TLB 是 许多 性 能 问题 的 源头 ， 所 
以 我 们 以 他 来 命名 这 个 定律 : Culler 定律 (Culler” s 
Law) 。 








19.8 小 结 


我 们 了 解 了 硬件 如 何 让 地 址 转换 更 快 的 方法 。 通 过 增加 一 个 小 的 、 世 
片 内 的 TLB 作 为 地 址 转换 的 缓存 ， 大 多 数 内 存 引用 就 不 用 访问 内 存 中 的 
页 表 了 。 因 此 ， 在 大 多 数 情况 下 ， 程 序 的 性 能 就 像 内 存 没 有 虚拟 化 一 
ee 








但 是 ，TLB 也 不 能 满足 所 有 的 程序 需求 。 有 具体 来 说 ， 如 果 一 个 程序 短 时 
间 内 访问 的 页 数 超过 了 TLB 中 的 页 数 ， 就 会 产生 大 量 的 TLB 未 命中 ， 运 
行 速度 就 会 变 慢 。 这 种 现象 被 称 为 超出 TLB 宪 新 范围 (TLB 
coverage ) ， 这 对 茶 些 程序 可 能 是 相当 严重 的 问题 。 解 决 这 个 问题 的 
一 种 方案 是 支持 更 大 的 页 ， 把 关键 数 据 结构 放 在 程序 地 址 空间 的 某 些 
区 域 ， 这 些 区 域 被 映射 到 更 大 的 页 ， 使 TLB 的 有 效 覆 盖 率 增加 。 对 更 大 
页 的 支持 通常 被 数据 库 管 理 系统 (Database Management System， 
DBMS ) 这样 的 程序 利用 ， 它 们 的 数据 结构 比较 大 ， 而 且 是 随机 访问 。 














另 一 个 TLB 问 题 值 得 一 提 : 访问 TLB 很 容易 成 为 CPU 流 水 线 的 瓶 开 ， 尤 其 
是 有 所 谓 的 物理 地 址 索引 缓存 (physically-indexed cache) 。 有 了 
这 种 缓存 ， 地 址 转换 必须 发 生 在 访问 该 缓存 之 前 ， 这 会 让 操作 变 慢 。 
为 了 解决 这 个 潜在 的 问题 ， 人 们 研究 了 各 种 巧妙 的 方法 ， 用 虚拟 地 址 
直接 访问 缓存 ， 从 而 在 缓存 命中 时 避免 昂贵 的 地 址 转换 步 又 。 像 这 种 
虚拟 地 址 索引 缓存 (virtually-indexed cache ) 解决 了 一 些 性 能 问 
站 全 
WO3]。 
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ee 了 RISC 这 个 术语 ， 开 启 了 为 性 能 而 简化 计算 机 坊 片 的 研 
完 狂潮 。 


[SB92] “CPU ”Performance Evaluation and Execution Time 
Prediction Using Narrow Spectrum Benchmarking” 


Rafael H. Saavedra-Barrera 


EECS Department, University of California, Berkeley Technical 
Report No. UCB/CSD-92-684, February 1992 


一 篇 日 越 的 论文 ， 探 讨 将 应 用 的 执行 时 间 分 解 为 组 成 部 分 ， 知 道 每 个 
部 分 的 成 本 ， 从 而 预测 应 用 的 执行 时 间 。 也 许 这 项 工作 最 有 趣 的 部 分 
0 
J 精彩 





[WO03] “A Survey on the Interaction Between (Caching, 
Translation and Protection” Adam Wiggins 


University of New South Wales TR UNSW-CSE-TR-0321, August， 
2003 


关于 TLB 如 何 与 CPU 管道 的 其 他 部 分 〈 即 硬件 缓存 ) 进行 交互 的 一 次 很 
好 的 调查 。 


[WGO00] “The SPARC Architecture Manual: Version 9” David L. 
Weaver and Tom Germond, September 2000 SPARC International, 
San Jose, California 


作业 测量 》 


本 次 作业 要 测算 一 下 TLB 的 容量 和 访问 TLB 的 开销 。 这 个 想法 参考 了 
Saavedra-Barrera 的 工作 [SB92] ， 他 用 设计 了 一 个 简单 而 漂亮 的 用 户 
级 程序 ， 来 测算 缓存 层级 结构 的 方方面面 。 更 多 细节 请 阅读 他 的 论 
3 














基本 原理 就 是 访问 一 个 跨 多 个 内 存 页 的 大 尺寸 数据 结构 (例如 数 
组 ) ， 然 后 统计 访问 时 间 。 例 如 ， 假 设 一 个 机 器 的 TLB 大 小 为 4〈 这 很 
小 ， 但 对 这 个 讨论 有 用 ) 。 如 果 写 一 个 程序 访问 4 个 或 更 少 的 页 ， 每 次 
访问 都 会 命中 TLB， 因 此 相对 较 快 。 但 是 ， 如 果 在 一 个 循环 里 反复 访问 
0 


循环 遍历 数组 一 次 的 基本 代码 应 该 像 这 样 : 


int jump = PAGESIZE / sizeof (int); 
for (i = 0; i < NUMPAGES * Jump i += jump) { 
a[li] += 1， 


} 

















在 这 个 循环 中 ， 数 组 a 中 每 页 的 一 个 整数 被 更 新 ， 直 到 NUMPAGES 指 定 的 
页 数 。 通 过 对 这 个 循环 反复 执行 计时 《〈 比 如， 在 外 层 循 环 中 执行 几 亿 
次 这 个 循环 ， 或 者 运行 几 秒 钟 所 需 的 次 数 ) ， 就 可 以 计算 出 平均 每 次 
访问 所 用 的 时 间 。 随 着 NUMPAGES 的 增加 ， 寻 找 开 销 的 跃升 ， 可 以 大 致 
确定 第 一 级 TLB 的 大 小 ， 确 定 是 否 存 在 第 二 级 TLB〈 如 果 存 在 ， 确 定 它 
的 大 小 ) ， 总 体 上 很 好 地 理解 TLB 命 中 和 未 命中 对 于 性 能 的 影响 。 


图 19. 5 是 一 张 示 意图 。 
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图 19.5 发 现 TLB 大 小 和 未 命中 开销 














从 图 19. 5 中 可 以 看 出 ， 如 果 只 访问 少数 页 (8 或 更 少 ，， 了 平均 访问 时 间 
大 约 是 5ns。 如 果 访 问 16 页 或 更 多 ， 每 次 访问 时 间 突 然 跃 升 到 20ns。 最 








后 一 次 开销 跃升 发 生 在 1024 页 时 ， 这 时 每 次 访问 大 约 要 70ns。 通 过 这 
些 数据 ， 我 们 可 以 总 结 出 这 是 一 个 二 级 的 TLB， 第 一 级 较 小 (大 约 能 存 
放 8 一 16 项 ) ， 第 二 级 较 大 ， 但 较 慢 《大 约 能 存放 512 项 ) 。 第 一 级 TLB 
的 命中 和 完全 未 命中 的 总 体 差 距 非 常 大， 大 约 有 14 倍 。TLB 的 性 能 很 重 
要 ! 








问题 


1， 为 了 计时 ， 可 能 需要 一 个 计时 器 ， 例 如 gettimeofday () 提供 的 。 这 
种 计时 器 的 精度 如 何 ? 操作 要 花 多 少时 间 ， 才 能 让 你 对 它 精确 计时 ? 
《这 有 助 了 确定 震 要 循环 多 少 次 ， 反 复 访问 内 存 页 ， 才 能 对 它 成 功 计 
压 O ) 


2. 写 一 个 程序 ， 命 名 为 tlb.c， 大 体 测算 一 下 每 个 页 的 平均 访问 时 
间 。 程 序 的 输入 参数 有 : 页 的 数目 和 尝试 的 次 数 。 


3. 用 你 喜欢 的 脚本 语言 (csh、Python 等 ) 写 一 段 脚 本 来 运行 这 个 程 
序 ， 当 访问 页 面 从 1 增长 到 几 千 ， 也 许 每 次 迭代 都 乘 2。 在 不 同 的 机 器 
十 运行 这 段 脚 本 ， 同时 收集 相应 数据 。 需 要 试 多少 次 才能 获得 可 信 的 
测量 结果 ? 


4. 接 下 来 ， 将 结果 绘图 ， 类 似 于 上 图 。 可 以 用 ploticus 这 样 的 好 工具 
画图 。 可 视 化 使 数据 更 容易 理解 ， 你 认为 是 什么 原因 ? 


5. 要 注意 编译 器 优化 带 来 的 影响 。 编 译 器 做 各 种 聪明 的 事情 ， 包 括 优 
化 掉 循 环 ， 如 果 循 环 中 增加 的 变量 后 续 没 有 使 用 。 如 何 确 保 编译 器 不 
优化 掉 你 写 的 TLB 大 小 测算 程序 的 主 循环 ? 


6. 还 有 一 个 需要 注意 的 地 方 ， 今 天 的 计算 机 系统 大 多 有 多 个 CPU， 
个 CPU 当 然 有 自己 的 TLB 结 构 。 为 了 得 到 准确 的 测量 数据 ， 我 们 需要 只 
在 一 个 CPU 上 运行 程序 ， 避 免 调 度 器 把 进程 从 一 个 CPU 调度 到 另 一 个 去 
运行 。 如 何 做 到 ? (提示 : 在 Google 上 搜索 “pinning a thread” 相 
次 如 果 没 有 这 样 做 ， 代 码 从 一 个 CPU 移 到 了 另 一 个 ， 会 发 生 什 
么 情况 ? 














7. 男 一 个 可 能 发 生 的 问题 与 初始 化 有 关 。 如 果 在 访问 数组 a 之 前 没有 
初始 化 ， 第 识 记 同 将 于 党 汪 由 于 初始 访问 开销 ， 比 如 要 求 置 0。 
这 会 影响 你 的 代码 及 其 计时 吗 ? 如何 抵消 这 些 潜在 的 开销 ? 


第 20 章 分页; 较 小 的 表 


我 们 现在 来 解决 分 页 引入 的 第 二 个 问题 ， 页 表 太 大 ， 因 此 消耗 的 内 存 
太 多 。 让 我 们 从 线性 页 表 开 始 。 你 可 能 会 记得 以 ， 线 性 页 表 变 得 相当 
大 。 假 设 一 个 32 位 地 址 空间 (232 字 节 ) ，4KB (212 字 节 〉 的 页 和 一 个 
4 字 节 的 页 表 项 。 一 个 地 址 空间 中 大 约 有 一 百 万 个 虚拟 页 面 
(232/212) 。 乘 以 页 表 项 的 大 小 ， 你 会 发 现 页 表 大 小 为 4MB。 回 想 一 
下 : 通常 系统 中 的 每 个 进程 都 有 一 个 页 表 ! 有 一 百 个 活动 进程 (在 现 
代 系 统 中 并 不 罕见 ) ， 就 要 为 页 表 分 配 数 百 兆 的 内 存 ! 因此 ， 要 寻找 
一 些 技术 来 减轻 这 种 沉重 的 负担 。 有 很 多 方法 ， 所 以 我 们 开始 吧 。 但 
先 看 我 们 的 关键 问题 : 














关键 问题 : 如 何 让 页 表 更 小 ? 
简单 的 基于 数组 的 页 表 (通常 称 为 线性 页 表 )〉 太 大 ， 在 典型 


系统 上 占用 太 多 内 存 。 如 何 让 页 表 更 小 ? 关键 的 思路 是 什 
么 ? 由 于 这 些 新 的 数据 结构 ， 会 出 现 什 么 效率 影响 ? 


20.1 简单 的 解决 方案 更 大 的 页 





可 以 用 一 种 简单 的 方法 减 小 页 表 大 小 : 使 用 更 大 的 页 。 再 以 32 位 地 址 
空间 为 例 ， 但 这 次 假设 用 16KB 的 页 。 因 此 ， 会 有 18 位 的 VPN 加 上 14 位 的 
偏 移 量 。 假 设 每 个 页 表 项 〈4 字 节 ) 的 大 小 相同 ， 现 在 线性 页 表 中 有 
218 个 项 ， 因 此 每 个 页 表 的 总 大 小 为 IMB， 页 表 缩 到 四 分 之 一 。 


补充 : 多 种 页 大 小 


另外 请 注意 ， 许 多 体系 结构 〈 例 如 MIPS、SPARC、x86-64) 现 
在 都 支持 多 种 页 大 小 。 通 常 使 用 一 个 小 的 (4KB 或 8KB〉 页 大 
小 。 但 是 ， 如 果 一 个 “聪明 的 ”应 用 程序 请 求 它 ， 则 可 以 为 
地 址 空间 的 特定 部 分 使 用 一 个 大 型 页 〈 例 如 ， 大 小 为 4MB) ， 
从 而 让 这 些 应 用 程序 可 以 将 常用 的 〈 大 型 的 ) 数据 结构 放 入 
这 样 的 空间 ， 同 时 只 占用 一 个 TLB 项 。 这 种 类 型 的 大 页 在 数据 
库 管 理 系统 和 其 他 高 端 商业 应 用 程序 中 很 常见 。 然 而 ， 多 种 
页 面 大 小 的 主要 原因 并 不 是 为 了 节省 页 表 空 间 。 这 是 为 了 减 
少 TLB 的 压力 ， 让 程序 能 够 访问 更 多 的 地 址 空间 而 不 会 遭受 太 
多 的 TLB 未 命中 之 苦 。 然 而 ， 正 如 研究 人 员 已 经 说 明 [N+02] 一 
样 ， 采 用 多 种 页 大 小 ， 使 操作 系统 虚拟 内 存 管 理 程序 显得 更 
复杂 ， 因 此 ， 有 时 只 需 向 应 用 程序 暴露 一 个 新 接口 ， 让 它们 
直接 请 求 大 内 存 页 ， 这 样 最 容易 。 


























然而 ， 这 种 方法 的 主要 问题 在 于 ， 大 内 存 页 会 导致 每 页 内 的 浪费 ， 这 
被 称 为 内 部 人 肆 片 (internal fragmentation) 问题 (因为 浪 络 在 分 配 
单元 内 部 ) 。 因 此 ， 结 果 是 应 用 程序 会 分 配 页 ， 但 只 用 每 页 的 一 小 部 
分 ， 而 内 存 很 快 就 会 充满 这 些 过 大 的 页 。 因 此 ， 大 多 数 系 统 在 常见 的 
情况 下 使 用 相对 较 小 的 页 大 小 : 4KB (如 x86) 或 8KB (如 SPARCvV9) 。 
问题 不 会 如 此 简单 地 解决 。 


20.2 混合 方法 : 分 页 和 分 段 





在 生活 中 ， 每 当 有 两 种 合理 但 不 同 的 方法 时 ， 你 应 该 总 是 研究 两 者 的 
结合 ， 看 看 能 人 否 两 全 其 美 。 我 们 称 这 种 组 合 为 杂 合 〈hybrid) 。 例 
如 ， 为 什么 只 吃 巧 死 力 或 简单 的 花生 桨 ， 而 不 是 将 两 者 结合 起 来 ， 就 
像 可 爱 的 花生 次 巧克力 杯 [M28]? 


多 年 前 ，Multics 的 创造 者 (特别 是 Jack Dennis) 在 构建 Multics 虚 拟 
内 存 系 统 时 ， 偶 然 有 发 现 了 这 样 的 想法 [M07] 。 具 体 来 说 ，Dennis 想 到 将 
分 页 和 分 段 相 结 合 ， 以 减少 页 表 的 内 存 开 销 。 更 仔细 地 看 看 典型 的 线 
性 页 表 ， 束 可 以 理解 为 什么 这 可 能 有 用 。 假 设 我 们 有 一 个 地 址 空间 ， 





其 中 堆 和 栈 的 使 用 部 分 很 小 。 例 如 ， 我 们 使 用 一 个 16KB 的 小 地 址 空间 
和 1KB 的 页 〈 见 图 20. 1) 。 该 地 址 空间 的 页 表 如 表 20. 1 所 示 。 
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图 20. 1 ”1KB 的 页 和 16KB 的 地 址 空间 


这 个 例子 假定 单个 代码 页 (VPN 0) 映射 到 物理 页 10， 单 个 堆 页 (VPN 
4) 上 映射 到 物理 页 23， 以 及 地 址 空间 另 一 端的 两 个 栈 页 (VPN 14 和 15) 
被 分 别 映射 到 物理 页 28 和 4。 从 图 20. 1 中 可 以 看 到 ， 大 部 分 页 表 都 没有 
使 用 ， 充 满 了 无 效 的 (invalid) 项 。 真 是 太 浪 费 了 ! 这 是 一 个 微小 的 


16KB 地 址 空间 。 想 象 一 下 32 位 地 址 空间 的 页 表 和 所 有 潜在 的 浪费 空 
间 ! 真 的 ， 不 要 想象 这 样 的 事情 ， 太 可 怕 了 。 


表 20. 1 KB 地 址 空间 的 页 表 











人 | 
用 国生 
| | | 


因此 ， 我 们 的 杂 合 方法 不 是 为 进程 的 整个 地 址 空间 提供 单个 页 表 ， 而 
古 为 每 个 逻辑 分 段 提供 一 个 。 在 这 个 例子 中 ， 我 们 可 能 有 3 个 页 表 ， 地 
址 空间 的 代码 、 堆 和 栈 部 分 各 有 一 个 。 


现在 ， 回 忆 在 分 段 中 ， 有 一 个 基 址 (base〉 寄存 器 ， 告 诉 我 们 每 个 段 
在 物理 内 存 中 的 位 置 ， 还 有 一 个 界限 《bound) 或 限制 〈limit) 寄存 
器 ， 告 诉 我 们 该 段 的 大 小 。 在 杂 合 方案 中 ， 我 们 仍然 在 MMU 中 拥有 这 些 
结构 。 在 这 里 ， 我 们 使 用 基 址 不 是 指向 段 本 和 喘 ， 而 是 保存 该 段 的 页 表 
Ts 界限 寄存 器 用 于 指示 页 表 的 结尾 〈 即 它 有 多 少 有 效 
由 ) 。 


我 们 通过 一 个 简单 的 例子 来 淤 清 。 假 设 32 位 虚拟 地 址 空间 包含 4kB 页 
面 ， 并 且 地 址 空间 分 为 4 个 段 。 在 这 个 例子 中 ， 我 们 只 使 用 3 个 
段 : 一 个 用 于 代码 ， 另 一 个 用 于 堆 ， 还 有 一 个 用 于 栈 。 

要 确定 地 址 引用 哪个 段 ， 我 们 会 用 地 址 空间 的 前 两 位 。 假 设 00 是 未 使 
用 的 段 ，01 是 代码 段 ，10 是 堆 段 ，11 是 栈 段 。 因 此 ， 虚 拟 地 址 如 下 所 
小 : 

31 3 O181716151413121109876543210 
Vo VPN Oil 

















在 硬件 中 ， 假 设 有 3 个 基本 /界限 对 ， 人 代码 、 堆 和 栈 各 一 个 。 当 进程 正 
在 运行 时 ， 每 个 段 的 基 址 寄存 器 都 包含 该 段 的 线性 页 表 的 物理 地 址 。 
因此 ， 系 统 中 的 每 个 进程 现在 都 有 3 个 与 其 关联 的 页 表 。 在 上 下 文 切换 
时 ， 必 须 更 改 这 些 寄存 器 ， 以 反映 新 运行 进程 的 页 表 的 位 置 。 


在 TLB 未 命中 时 (假设 硬件 管理 的 TLB， 即 硬件 负责 处 理 TLB 未 命中 ) ， 
硬件 使 用 分 段位 (SN) 来 确定 要 用 哪个 基 址 和 界限 对 。 然 后 硬件 将 其 
中 的 物理 地 址 与 VPN 结 合 起 来 ， 形 成 页 表 项 (PTE) 的 地 址 : 














SN = 
VPN = 
AddressOfPTE = 


(VirtualAddress & SEG MASK) >> SN_SHIFT 
(VirtualAddress & VPN MASK) >> VPN SHIFT 
Base[SN] + (VPN * sizeof (PTE)) 











这 段 代码 应 该 看 起 来 很 熟悉 ， 它 与 我 们 之 前 在 线性 页 表 中 看 到 的 几乎 
完全 相同 。 当 然 ， 唯 一 的 区 别 是 使 用 3 个 段 基 址 寄存 器 中 的 一 个 ， 而 不 
是 单个 页 表 基 址 寄存 器 。 


杂 合 方案 的 关键 区 别 在 于 ， 每 个 分 段 都 有 界限 寄存 器 ， 每 个 界限 寄存 

器 保存 了 段 中 最 大 有 效 页 的 值 。 例 如 ， 如 果 代 码 段 使 用 它 的 前 3 个 页 
(0、1 和 2) ， 则 代码 段 页 表 将 只 有 3 个 项 分 配给 它 ， 并 且 界 限 寄存 器 

将 被 设置 为 3。 内 存 访问 超出 段 的 末尾 将 产生 一 个 异常 ， 并 可 能 导致 进 

程 终止 。 以 这 种 方式 ， 与 线性 页 表 相 比 ， 杂 合 方法 实现 了 显著 的 内 存 

栈 和 堆 之 间 未 分 配 的 页 不 再 占用 页 表 中 的 空间 〈( 仪 将 其 标记 为 
2 











提示 : 使 用 杂 合 


当 你 有 两 个 看 似 相 反 的 好 主意 时 ， 你 应 该 总 是 看 到 你 是 否 可 
以 将 它们 组 合成 一 个 能 够 实现 两 全 其 美的 杂 人 合体 
Chybrid) 。 例 如 ， 杂 交 玉 米 物种 已 知 比 任何 天 然 存在 的 物 
种 更 强壮 。 当 然 ， 并 非 所 有 的 杂 合 都 是 好 主意 ， 请 参阅 
Zeedonk 〈 或 Zonkey) ， 它 是 斑马 和 驴 的 杂交 。 如 果 你 不 相信 
这 样 的 生物 存在 ， 就 查 一 下 ， 你 会 大 吃 一 惊 。 











但 是 ， 你 可 能 会 注意 到 ， 这 种 方法 并 非 没 有 问题 。 首 先 ， 它 仍然 要 求 
使 用 分 段 。 正 如 我 们 讨论 的 那样 ， 分 段 并 不 像 我 们 需要 的 那样 灵活 ， 
因为 它 假定 地 址 空间 有 一 定 的 使 用 模式 。 例 如 ， 如 果 有 一 个 大 而 稀 下 C 
的 堆 ， 仍 然 可 能 导致 大 量 的 页 表 浪 费 。 其 次 ， 这 种 杂 合 导致 外 部 雁 打 
再 次 出 现 。 尽 管 大 部 分 内 存 是 以 页 面 大 小 单位 管理 的 ， 但 页 表现 在 可 
以 是 任意 大 小 《是 PTE 的 倍数 ) 。 因 此 ， 在 内 存 中 为 它们 寻找 自由 空间 
出 于 这 些 原 因 ， 人 们 继续 寻找 更 好 的 方式 来 实现 更 小 的 页 














20.3 多 级 页 表 


男 一 种 方法 并 不 依赖 于 分 段 ， 但 也 试图 解决 相同 的 问题 ， 如 何 去 掉 页 
表 中 的 所 有 无 效 区 域 ， 而 不 是 将 它们 全 部 保留 在 内 存 中 ? 我 们 将 这 种 
方法 称 为 多 级 页 表 (multi-level page table) ， 因 为 它 将 线性 页 表 
变 成 了 类 似 树 的 东西 。 这 种 方法 非常 有 效 ， 许 多 现代 系统 都 用 它 〈 例 
如 x86 [BOH10] 〉。 我 们 现在 详细 描述 这 种 方法 。 


多 级 页 表 的 基本 思想 很 简单 。 首 先 ， 将 页 表 分 成 页 大 小 的 单元 。 然 
后 ， 如 果 整 页 的 页 表 项 (PTE) 无 效 ， 就 完全 不 分 配 该 页 的 页 表 。 为 了 
追踪 页 表 的 页 是 否 有 效 〈 以 及 如 果 有 效 ， 它 在 内 存 中 的 位 置 ) ， 使 用 
了 名 为 页 目录 (page directory) 的 新 结构 。 页 目录 因此 可 以 告诉 你 
页 表 的 页 在 哪里 ， 或 者 页 表 的 整个 页 不 包含 有 效 页 。 


图 20. 2 展示 了 一 个 例子 。 图 的 左边 是 经 典 的 线性 页 表 。 即 使 地 址 空间 
的 大 部 分 中 间 区 域 无 效 ， 我 们 仍然 需要 为 这 些 区 域 分 配 页 表 空 间 《〈 即 
页 表 的 中 间 两 页 ) 。 右 侧 是 一 个 多 级 页 表 。 页 目录 仪 将 页 表 的 两 页 标 
记 为 有 效 〈 第 一 个 和 最 后 一 个 ); 因此 ， 页 表 的 这 两 页 就 驻 留 在 内 存 
中 。 因 此 ， 你 可 以 形象 地 看 到 多 级 页 表 的 工作 方式 : 它 只 是 让 线性 页 
表 的 一 部 分 消失 《释放 这 些 帧 用 于 其 他 用 途 ) ， 并 用 页 目录 来 记录 页 
表 的 哪些 页 被 分 配 。 


于 一 个 简单 的 两 级 页 表 中 ， 页 目录 为 每 页 页 表 包 含 了 一 项 。 它 由 多 个 
页 目录 项 (Page Directory Entries，PDE) 组 成 。PDE (人 至少 ) 拥有 
有 效 位 (valid bit) 和 页 帧 号 (page frame number，PFN)， 类 似 于 
PTE。 但 是 ， 正 如 上 面 所 暗示 的 ， 这 个 有 效 位 的 含义 稍 有 不 同 : 如 果 
PDE 项 是 有 效 的 ， 则 意味 着 该 项 指 癌 的 页 表 (通过 PFN) 中 至 少 有 一 页 
是 有 效 的 ， 即 在 该 PDE 所 指 问 的 页 中 ， 至 少 一 个 FTE， 其 有 效 位 被 设置 
为 1。 如 果 PDE 项 无 效 〈 即 等 于 零 ) ， 则 PDE 的 其 余部 分 没有 定义 。 


与 我 们 至 今 为 止 看 到 的 方法 相 比 ， 多 级 页 表 有 一 些 明显 的 优势 。 首 
先 ， 也 许 最 明显 的 是 ， 多 级 页 表 分 配 的 页 表 空 间 ， 与 你 正在 使 用 的 地 
址 空间 内 存量 成 比例 。 因 此 它 通 各 很 权 闫 ， 并 且 文 持 黎 牙 的 地 址 空 
间 。 
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图 20. 2 线性 ( 左 ) 和 多 级 ( 右 ) 页 表 


其 次 ， 如 果 仔 细 构 建 ， 页 表 的 每 个 部 分 都 可 以 整齐 地 放 入 一 页 中 ， 从 
而 更 容易 管理 内 存 。 操 作 系 统 可 以 在 需要 分 配 或 增长 页 表 时 简单 地 获 
取 下 一 个 空闲 页 。 将 它 与 一 个 简单 的 〈 非 分 页 ) 线性 页 表 相 比 [24， 后 
者 仅 是 按 VPN 索 引 的 PTE 数 组 。 用 这 样 的 结构 ， 整 个 线性 页 表 必 须 连续 
驻 留 在 物理 内 存 中 。 对 于 一 个 大 的 页 表 〈 比 如 4MB) ， 找 到 如 此 大 量 
的 、 未 使 用 的 连续 空闲 物理 内 存 ， 可 能 是 一 个 相当 大 的 挑战 。 有 了 多 
级 结构 ， 我 们 增加 了 一 个 间接 层 (level of indirection) ， 使 用 了 
页 目录 ， 它 指 问 页 表 的 各 个 部 分 。 这 种 间接 方式 ， 让 我 们 能 够 将 页 表 
页 放 在 物理 内 存 的 任何 地 方 。 











提示 : 理解 时 空 折 中 


在 构建 数据 结构 时 ， 应 始终 考虑 时 间 和 空间 的 折 中 (time- 
space trade-off) 。 通 常 ， 如 果 你 希望 更 快 地 访问 特定 的 数 
据 结 构 ， 就 必须 为 该 结构 付出 空间 的 代价 。 








应 该 指出 ， 多 级 页 表 是 有 成 本 的 。 在 TLB 未 命中 时 ， 需 要 从 内 存 加 载 两 
次 ， 才 能 从 页 表 中 获取 正确 的 地 址 转换 信息 《一 次 用 于 页 目录 ， 另 一 
次 用 于 PTE 本 号) ， 而 用 线性 页 表 只 需要 一 次 加 载 。 因 此 ， 多 级 表 是 一 
个 时 间 一 空间 折 中 (time-space trade-off) 的 小 例子 。 我 们 想 要 更 
小 的 表 〈 并 得 到 了 ) ， 但 不 是 没 代价 。 尺 管 在 常见 情况 下 (TLB 命 
ne 
[本 日 o 


男 一 个 明显 的 缺点 是 复杂 性 。 无 论 是 硬件 还 是 操作 系统 来 处 理 页 表 查 
找 《〈 在 TLB 未 命中 时 ) ， 这 样 做 无 疑 都 比 简单 的 线性 页 表 碍 找 更 复杂 。 
通常 我 们 愿意 增加 复杂 性 以 提高 性 能 或 降低 管理 费用 。 在 多 级 表 的 情 
况 下 ， 为 了 节省 宝贵 的 内 存 ， 我 们 使 页 表 碍 找 更 加 复杂 。 

















详细 的 多 级 示例 





为 了 更 好 地 理解 多 级 页 表 背 后 的 想法 ， 我 们 来 看 一 个 例子 。 设 想 一 个 
大 小 为 16KB 的 小 地 址 空间 ， 其 中 包含 64 个 字 节 的 页 。 因 此 ， 我 们 有 一 
个 14 位 的 虚拟 地 址 空间 ，VPN 有 8 位 ， 偏 移 量 有 6 位 。 即 使 只 有 一 小 部 分 
地 址 空间 正在 使 用 ， 线 性 页 表 也 会 有 23 (256) 个 项 。 图 20. 3 展示 了 这 
种 地 址 空间 的 一 个 例子 。 





提示 : 对 复杂 性 表示 怀疑 


系统 设计 者 应 该 谨慎 对 待 让 系统 增加 复杂 性 。 好 的 系统 构建 
者 所 做 的 就 是 : 实现 最 小 复杂 性 的 系统 ， 来 完成 手 上 的 任 
务 。 例 如 ， 如 果 磁 盘 空间 非常 大 ， 则 不 应 该 设计 一 个 尽 可 能 








少 使 用 字 节 的 文件 系统 。 同 样 ， 如 果 处 理 器 速度 很 快 ， 建 议 
在 操作 系统 中 编写 一 个 干净 、 易 于 理解 的 模块 ， 而 不 是 CPU 优 
化 的 、 手 写 汇 编 的 代码 。 注 意 过 早 优 化 的 代码 或 其 他 形式 的 
不 必要 的 复杂 性 。 这 些 方法 会 让 系统 难以 理解 、 维 护 和 调 
试 。 正 如 Antoine de Saint-Exupery 的 名 言 : “完美 非 无 可 
乃 不 可 减 。” 他 没有 写 的 是 : “谈论 完美 易 ， 真 正 实现 
难 。 








在 这 个 例子 中 ， 虚 拟 页 0 和 1 用 于 代码 ， 虚 拟 页 4 和 5 用 于 堆 ， 虚 拟 页 254 
和 255 用 于 栈 。 地 址 空间 的 其 余 页 未 被 使 用 。 


要 为 这 个 地 址 空间 构建 一 个 两 级 页 表 ， 我 们 从 完整 的 线性 页 表 开 始 ， 
将 它 分 解 成 页 大 小 的 单元 。 回 想 一 下 我 们 的 完整 页 表 〈 在 这 个 例子 
中 ) 有 256 个 项 ;假设 每 个 PTE 的 大 小 是 4 个 字 节 。 因 此 ， 我 们 的 页 大 小 
为 IKB (256X4 字 节 ) 。 鉴 于 我 们 有 64 字 节 的 页 ，1KB 页 表 可 以 分 为 16 
个 64 字 节 的 页 ， 每 个 页 可 以 容纳 16 个 PTE。 
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0000 0010 
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0000 0011 ; 

0000 0100 
0000 0101 
0000 0110 
0000 0111 
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图 20. 3 ”16KB 的 地 址 空间 和 64 字 节 的 页 


我 们 现在 需要 了 解 : 如 何 获 取 VPN， 并 用 它 来 首先 索引 到 页 目录 中 ， 然 
后 再 索引 到 页 表 的 页 中 。 请 记 住 ， 每 个 都 是 一 组 项 。 因 此 ， 我 们 需要 
弄 清 楚 ， 如 何 为 每 个 VPN 构 建 索引 。 


我 们 首先 索引 到 页 目录 。 这 个 例子 中 的 页 表 很 小 ，256 个 项 ， 分 布 在 16 
个 页 上 。 页 目录 需要 为 页 表 的 每 页 提供 一 个 项 。 因 此 ， 它 有 16 个 项 。 
结果 ， 我 们 需要 4 位 VPN 来 索引 目录 。 我 们 使 用 VPN 的 前 4 位 ， 如 下 所 
个 : 



































VPN 侦 移 量 


一 一 一 一 一 一 一 
Ea 
-| 


页 日 录 索 引 


一 旦 从 VPN 中 提取 了 页 目录 索引 (简称 PDIndex〉 ， 我 们 就 可 以 通过 简 
单 的 计算 来 找到 页 目录 项 (PDE)〉 的 地 址 : PDEAddr = PageDirBase + 
(PDIndexXsizeof (PDE) ) 。 这 就 得 到 了 页 目录 ， 现 在 我 们 来 看 
它 ， 在 地 址 转换 上 取得 进一步 进展 。 


如 果 页 目录 项 标记 为 无 效 ， 则 我 们 知道 访问 无 效 ， 从 而 引发 异常 。 但 
是 ， 如 果 PDE 有 效 ， 我 们 还 有 更 多 工作 要 做 。 有 基体 来 说 ， 我 们 现在 必须 
从 页 目录 项 指向 的 页 表 的 页 中 获取 页 表 项 (PTE〉 。 要 找到 这 个 PTE， 
我 们 必须 使 用 VPN 的 剩余 位 索引 到 页 表 的 部 分 : 


VPN 偏 移 量 





























maogogogggoggga 


-上 


页 目录 索引 页 表 索 引 


这 个 页 表 索 引 (Page-Table Index，PTIndex) 可 以 用 来 索引 页 表 本 
身 ， 给 出 PTE 的 地 址 : 











PTEAddr = (PDE.PFN << SHIFT) + (PTIndex * sizeof (PTE)) 
请 注意 ， 从 页 目录 项 获得 的 页 帧 号 (PFN) 必须 左 移 到 位 ， 然 后 再 与 页 


表 索 引 组 合 ， 才 能 形成 PTE 的 地 址 。 





为 了 确定 这 一 切 是 否 合理 ， 我 们 现在 代入 一 个 包含 一 些 实际 值 的 多 级 
ee 
20. 2 的 元 侧 ) 。 


在 该 表 中 ， 可 以 看 到 每 个 页 目录 项 (PDE) 都 描述 了 有 关 地 址 空间 页 表 
的 一 些 内 容 。 在 这 个 例子 中 ， 地 址 空间 里 有 两 个 有 效 区 域 (在 开始 和 
结束 处 ) ， 以 及 一 些 无 效 的 映射 。 


在 物理 页 100( 页 表 的 第 0 页 的 物理 帧 号 ) 中 ， 我 们 有 1 页 ， 包 含 16 个 页 
表 项 ， 记 录 了 地 址 空间 中 的 前 16 个 VPN。 请 参见 表 20. 2 (中 间 部 分 ) 了 


解 这 部 分 页 表 的 内 容 。 
Page of PT 
(@PFN: 101) 








表 20. 2 页 目录 和 页 表 
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页 表 的 这 一 页 包含 前 16 个 VPN 的 映射 。 在 我 们 的 例子 中 ，VPN 0 和 1 是 有 
效 的 《代码 段 }) ，4 和 5《 堆 ) 也 是 。 因 此 ， 该 表 有 每 个 页 的 映射 信 
恩 。 其 余 项 标记 为 无 效 。 


页 表 的 另 一 个 有 效 页 在 PFN 101 中 。 该 页 包含 地 址 空间 的 最 后 16 个 VPN 
的 上 映射。 具体 见 表 20. 2 右 侧 〉。 


在 这 个 例子 中 ，VPN 254 和 255〔 栈 ) 包含 有 效 的 上 映射。 希望 从 这 个 例 
子 中 可 以 看 出 ， 多 级 索引 结构 可 以 节省 多 少 空间 。 在 这 个 例子 中 ， 我 
们 不 是 为 一 个 线性 页 表 分 配 完整 的 16 页 ， 而 是 分 配 3 页 : 一 个 用 于 页 目 
录 ， 两 个 用 于 页 表 的 具有 有 效 映 射 的 块 。 大 型 (32 位 或 64 位 ) 地 址 空 
间 的 节省 显然 要 大 得 多 。 


最 后 ， 让 我 们 用 这 些 信息 来 进行 地 址 转换 。 这 里 是 一 个 地 址 ， 指 向 VPN 
254 的 第 0 个 字 节 : 0x3F80， 或 二 进 制 的 11 1111 1000 0000。 


回想 一 下 ， 我 们 将 使 用 VPN 的 前 4 位 来 索引 页 目录 。 因 此 ，1111 会 从 上 


面 的 页 目录 中 选择 最 后 一 个 《第 15 个 ， 如 果 你 从 第 0 个 开始 ) 。 这 就 指 
问 了 位 于 地 址 101 的 页 表 的 有 效 页 。 然 后 ， 我 们 使 用 VPEN 的 下 4 位 


工 W 一 
































(1110) 来 索引 页 表 的 那 一 页 并 找到 所 需 的 PTE。1110 是 页 面 中 的 倒数 
第 二 【第 14 个 ) 条 ， 并 告诉 我 们 虚拟 地 址 空间 的 页 254 映 射 到 物理 页 
55。 通 过 连接 PFN = 55 (或 十 六 进 制 0x37) 和 offset = 000000， 可 以 
形成 我 们 想 要 的 物理 地 址 ， 并 同 内 存 系 统 发 出 请 求 : PhysAddr 
= (PTE. PFN << SHIFT) + offset = 00 1101 1100 0000 = 0x0DC0。 


你 现在 应 该 知道 如 何 构建 两 级 页 表 ， 利 用 指向 页 表 页 的 页 目录 。 但 遗 


憾 的 是 ， 我 们 的 工作 还 没有 完成 。 我 们 现在 要 讨论 ， 有 了 时 两 个 页 级 别 
是 不 够 的 ! 








超过 两 级 


在 至 今 为 止 的 例子 中 ， 我 们 假定 多 级 页 表 只 有 两 个 级 别 : 一 个 页 目录 
和 几 页 页 表 。 在 某 些 情况 下 ， 更 深 的 树 是 可 能 的 〈 并 且 确 实 需 要 ) 。 


让 我 们 举 一 个 简单 的 例子 ， 用 它 来 说 明 为 什么 更 深层 次 的 多 级 页 表 可 
能 有 用 。 在 这 个 例子 中 ， 假 设 我 们 有 一 个 30 位 的 虚拟 地 址 空间 和 一 个 
小 的 《512 字 节 ) 页 。 因 此 我 们 的 虚拟 地 址 有 一 个 21 位 的 虚拟 页 号 和 一 


个 9 位 偏 移 量 。 


请 记 住 我 们 构建 多 级 页 表 的 目标 : 使 页 表 的 每 一 部 分 都 能 放 入 一 个 
页 。 到 目前 为 止 ， 我 们 只 考虑 了 页 表 本 里 。 但 是 ， 如 果 页 目录 太 大 ， 
该 您 么 欢 ? 


要 确定 多 级 表 中 需要 多 少 级 别 才能 使 页 表 的 所 有 部 分 都 能 放 入 一 页 ， 
首先 要 确定 多 少 页 表 项 可 以 放 入 一 页 。 鉴 于 页 大 小 为 512 字 节 ， 并 且 假 
设 PTE 大 小 为 4 字 节 ， 你 应 该 看 到 ， 可 以 在 单个 页 上 放 入 128 个 PTE。 当 
我 们 索引 页 表 时 ， 我 们 可 以 得 出 结论 ， 我 们 需要 VPN 的 最 低 有 效 位 7 位 
(log?128) 作为 索引 : 




















页 目录 过 


页 下 器 


在 上 面 你 还 可 能 注意 到 ， 多 少 位 留 给 了 (大 ) 页 目录 : 14。 如 果 我 们 
的 页 目录 有 2 个 项 ， 那 么 它 不 是 一 个 页 ， 而 是 128 个 ， 因 此 我 们 让 多 级 
页 表 的 每 一 个 部 分 放 入 一 页 目标 失败 了 。 


为 了 解决 这 个 问题 ， 我 们 为 树 再 加 一 层 ， 将 页 目录 本 身 拆 成 多 个 页 ， 
然后 在 其 上 添加 男 一 个 页 目录 ， 指 向 页 目录 的 页 。 我 们 可 以 按 如 下 方 
式 分 割 虚拟 地 址 : 








VEN 全 移 量 





区 | 芭 22 gslloglslllolmlmol | 8?16|514| sla 1 


PD 妥 引 PD 案 引 页 表 索引 


现在 ， 当 索引 上 层 页 目录 时 ， 我 们 使 用 虚拟 地 址 的 最 高 几 位 《图 中 的 
PD 索 引 0) 。 该 索引 用 于 从 顶级 页 目录 中 获取 页 目录 项 。 如 果 有 效 ， 则 
通过 组 合 来 自 顶 级 PDE 的 物理 帧 号 和 VPN 的 下 一 部 分 (PD 索引 1) 来 查阅 
页 目录 的 第 二 级 。 最 后 ， 如 果 有 效 ， 则 可 以 通过 使 用 与 第 二 级 PDE 的 地 
址 组 合 的 页 表 索 引 来 形成 PTE 地 址 。 这 会 有 很 多 工作 。 所 有 这 些 只 是 为 
了 在 多 级 页 表 中 得 找 茶 些 东西 。 




















地 址 转换 过 程 : 记 住 TLB 


为 了 总 结 使 用 两 级 页 表 的 地 址 转换 的 整个 过 程 ， 我 们 再 次 以 算法 形式 
展示 控制 流 〈 见 图 20.4) 。 该 图 显示 了 每 个 内 存 引 用 在 硬件 中 发 生 的 
情况 (假设 硬件 管理 的 TLB〉。 


从 图 中 可 以 看 到 ， 在 任何 复杂 的 多 级 页 表 访 问 发 生 之 前 ， 硬 件 首先 检 

查 TLB。 在 命中 时 ， 物 理 地 址 直接 形成 ， 而 不 像 之 前 一 样 访问 页 表 。 只 

有 在 TLB 未 命中 时 ， 硬 件 才 需 要 执行 完整 的 多 级 查找 。 在 这 条 路 径 上 ， 

两 次 额外 的 内 存 访问 来 查找 有 效 的 
映 硬 | 。 











































































































下 VPN = (VirtualAddress & VPN MASK) >> SHIFT 

2 (Success, TlbEntry) = TLB Lookup (VPN) 

3 if (Success == True) // TLB Hit 

4 if (CanAccess (TlbEntry.ProtectBits) == True) 

5 Offset = VirtualAddress & OFFSET MASK 

6 PhysAddr = (TlbEntry.PFN << SHIFT) | Offset 
2 Register = AccessMemory (PhysAddr) 

8 else 

9 RaiseException ( PROTECTION FAULT) 

10 else // TLB Miss 

下 二 // first, get page directory entry 

12 PDIndex = (VPN & PD MASK) >> PD SHIFT 

13 PDEAddr = PDBR + (PDIndex * sizeof (PDE)) 

14 PDE = AccessMemory (PDEAddr) 

15 if (PDE.Valid == False) 

16 RaiseException (SEGMENTATION FAULT) 

17 else 

8 // PDE is valid: now fetch PTE from page table 
19 PTINndex = (VP & PT MASK) >> PT SHIFET 

20 PTEAddr = (PDE.PFN << SHIFT) + (PTIndex * sizeof (PTE)) 
21 PTE = AccessMemory (PTEAddr) 

22 if (PTE.Valid == False) 

23 RaiseException (SEGMENTATION FAULT) 

24 else if (CanAccess (PTE.ProtectBits) == False) 
25 RaiseException (PROTECTION FAULT) 

26 else 

27 TLB Insert (VPN, PTE.PFN, PTE.ProtectBits) 
28 RetryInstruction() 





图 20. 4 多 级 页 表 控 制 流 


20.4 反 向 页 表 





在 反 同 页 表 (inverted page table) 中 ， 可 以 看 到 页 表 世 界 中 更 极端 
的 空间 节省 。 在 这 里 ， 我 们 保留 了 一 个 页 表 ， 其 中 的 项 代表 系统 的 每 


个 物理 页 ， 而 不 是 有 许多 页 表 〈 系 统 的 每 个 进程 一 个 ) 。 页 表 项 告诉 
人 


人 人 。 


现在 ， 要 找到 正确 的 项 ， 就 是 要 搜索 这 个 数据 结构 。 线 性 扫描 是 昂贵 
的 ， 因 此 通常 在 此 基础 结构 上 建立 散 列 表 ， 以 加 速 查找 。PowerPC 就 是 
这 种 架构 [JM98] 的 一 个 例子 。 


更 一 般 地 说 ， 反 回 页 表 说 明了 我 们 从 一 开始 就 说 过 的 内 容 : 页 表 只 是 
数据 结构 。 你 可 以 对 数据 结构 做 很 多 疫 狂 的 事情 ， 让 它们 更 小 或 更 
大 ， 使 它们 变 得 更 慢 或 更 快 。 多 层 和 反 向 页 表 只 是 人 们 可 以 做 的 很 多 
事情 的 两 个 例子 。 


20.5 将 页 表 交 换 到 磁盘 








最 后 ， 我 们 讨论 放松 最 后 一 个 假设 。 到 目前 为 止 ， 我 们 一 直 假 设 页 表 
位 于 内 核 拥 有 的 物理 内 存 中 。 即 使 我 们 有 很 多 技巧 来 减 小 页 表 的 大 
小 ， 但 是 它 仍然 有 可 能 是 太 大 而 无 法 一 次 装 入 内 存 。 因 此 ， 一些 系统 
将 这 样 的 页 表 放 入 内 核 虚拟 内 存 (kernel virtual memory) ， 从 而 允 
许 系 统 在 内 存 压力 较 大 时 ， 将 这 些 页 表 中 的 一 部 分 交换 (swap ) 到 磁 
盘 。 我 们 将 在 下 一 章 ( 即 VAX/VMS 的 案例 研究 中 进一步 讨论 这 个 问 
题 ， 在 我 们 更 详细 地 了 解 了 如 何 将 页 移入 和 移出 内 存 之 后 。 








20.6 小 结 





我 们 现在 已 经 看 到 了 如 何 构建 真正 的 页 表 。 不 一 定 只 是 线性 数组 ， 而 
是 更 复 淋 的 数据 结构 。 这 样 的 页 表 体 现 了 时 间 和 空间 上 的 折 中 (表格 
越 大 ，TLB 未 命中 可 以 处 理 得 更 快 ， 反 之 亦 然 ) ， 因 此 结构 的 正确 选择 
强烈 依赖 于 给 定 环境 的 约束 。 


在 一 个 内 存 受 限 的 系统 中 《〈 像 很 多 旧 系 统一 样 ) ， 小 结构 是 有 意义 
的 。 在 具有 较 多 内 存 ， 并 且 工 作 负 载 主动 使 用 大 量 内 存 页 的 系统 中 ， 








用 更 大 的 页 表 来 加 速 TLB 未 命中 处 理 ， 可 能 是 正确 的 选择 。 有 了 软件 管 
理 的 TILB， 数 据 结 构 的 整个 世界 开放 给 了 喜悦 的 操作 系统 创新 者 〈 提 
示 : 就 是 你 ) 。 你 能 想 出 什么 样 的 新 结构 ? 它们 解决 了 什么 问题 ? 当 
你 入 睡 时 想 想 这 些 问题 ， 做 一 个 只 有 操作 系统 开发 人 员 才 能 做 的 大 


梦 。 


[BOH10]“Computer Systems: A Programmer”s Perspective?” 
Randal E. Bryant and David R. 0”Hallaron 


Addison-Wesley, 2010 
我 们 还 没有 找到 很 好 的 多 级 页 表 首 选 参考 。 然 而 ，Bryant 和 


0”Hallaron 编 写 的 这 本 了 不 起 的 教科 书 深入 探讨 了 x86 的 细节 ， 至 少 
这 是 一 个 使 用 这 种 结构 的 早期 系统 。 这 也 是 一 本 很 棒 的 书 。 











[JM98] “Virtual Memory: Issues of Implementation” Bruce Jacob 
and Trevor Mudge 


IEEE Computer, June 1998 


对 许多 不 同系 统 及 其 虚拟 内 存 方法 的 优秀 调查 。 其 中 有 关于 x86、 
PowerPC、MIPS 和 其 他 体系 结构 的 大 量 细节 内 容 。 


[LL82] “Virtual Memory Management in the VAX/VMS Operating 
System” Hank Levy and P. Lipman 


IEEE Computer, Vol. 15, No. 3, March 1982 


一 篇 关于 经 典 操作 系统 VMS 中 真实 虚拟 内 存 管理 程序 的 精彩 论文 。 它 非 
常 棱 ， 实 际 上 ， 从 现在 开始 的 几 章 ， 我 们 将 利用 它 来 复习 目前 为 止 我 
们 学 过 的 有 关 虚 拟 内 存 的 所 有 内 容 。 


[M28] “Reese’” s Peanut Butter Cups” Mars Candy Corporation. 


显然 ， 这 些 精 美的 “甜点 ”是 由 Harry Burnett Reese 在 1928 年 发 明 
的 ， 他 以 前 兽 是 奶牛 场 的 农夫 和 Milton S$， Hershey 的 运输 工 长 。 至 
少 ， 维 基 百 科 上 是 这 么 说 的 。 


LN+02]“Practical， Transparent Operating System Support for 
Superpages” Juan Navarro, Sitaram Iyer, Peter Druschel, Alan 
COX 


OSDI ” 02, Boston, Massachusetts, October 2002 


一 篇 精彩 的 论文 ， 展 示 了 将 大 页 或 超大 页 并 入 现代 操作 系统 中 的 所 有 
细节 。 这 篇 文章 阅读 起 来 没有 你 想象 的 那么 容易 。 


[MO7] “Multics: History” 
这 个 神奇 的 网 站 提供 了 Multics 系 统 的 大 量 历史 记录 ， 当 然 是 0S 历 史上 
最 有 影响 力 的 系统 之 一 。 引 文 如 下 : “ 麻 省 理工 学 院 的 Jack Dennis 为 


Multics 的 开始 提供 了 有 影响 力 的 架构 理念 ， 特 别 是 将 分 页 和 分 段 相 结 
合 的 想法 。” 
口 [a 


作业 


这 个 有 趣 的 小 作业 会 测试 你 是 否 了 解 多 级 页 表 的 工作 原理 。 是 的 ， 前 
面 句 子 中 使 用 的 “有 趣 ” 一 词 有 一 些 争 议 。 该 程序 叫 作 “可 能 不 太 
怪 : paging-multilevel-translate.py”。 详 情 请 参阅 README 文 件 。 


问题 


1. 对 于 线性 页 表 ， 你 需要 一 个 寄存 器 来 定位 页 表 ， 假 设 硬件 在 TLB 未 
命中 时 进行 查找 。 你 需要 多 少 个 寄存 器 才能 找到 两 级 页 表 ? 三 级 页 表 
呢 ? 


2， 使 用 模拟 器 对 随机 种 子 0、1 和 2 执行 翻译 ， 并 使 用 -ec 标志 检查 你 的 
答案 。 需 要 多 少 内 存 引 用 来 执行 每 次 查找 ? 


3. 根据 你 对 缓存 内 存 的 工作 原理 的 理解 ， 你 认为 对 页 表 的 内 存 引 用 如 
何在 缓存 中 工作 ? 它们 是 否 会 导致 大 量 的 缓存 命中 《并 导致 快速 访 
问 ) 或 者 很 多 未 命中 《并 导致 访问 缓慢 ) ? 








[1]， 或 者 实际 上 ， 你 可 能 记 不 起 来 了 。 分 页 这 件 事 正 在 失控 ， 不 是 
吗 ? 虽然 这 样 说 ， 但 在 进入 解决 方案 之 前 ， 一 定 要 确保 你 理解 了 正在 

解决 的 问题 。 事 实 上 ， 如 果 你 理解 了 问题 ， 通 常 可 以 自己 推导 出 解决 

方案 。 在 这 里 ， 问 题 了 该 很 清 楚 ， 简单 的 线性 (基于 数 组 的 页 表 大 
了 。 


[2]， 我 们 在 这 里 做 了 一 些 假设 ， 所 有 的 页 表 全 部 驻 留 在 物理 内 存 中 
《 即 它们 没有 交换 到 磁盘 ) 。 我 们 很 快 就 会 放松 这 个 假设 。 


第 21 章 ”超越 物理 内 存 : 机 制 


到 目前 为 止 ， 我们 一 直 假 定 地 址 空间 非常 小 ， 能 放 入 物理 内 存 。 事 实 
上 ， 我 们 假设 每 个 正在 运行 的 进程 的 地 址 空间 都 能 放 入 内 存 。 我 们 将 
放松 这 些 大 的 假设 ， 并 假设 我 们 需要 支持 许多 同时 运行 的 巨大 地 址 空 
间 。 


为 了 达到 这 个 目的 ， 需 要 在 内 存 层级 (memory hierarchy) 上 再 加 一 
屋 。 到 目前 为 止 ， 我们 一 直 假 设 所 有 页 都 津 驻 在 物理 内 存 中 。 但 是 ， 
为 了 支持 更 大 的 地 址 空间 ， 操 作 系 统 需 要 把 当前 没有 在 用 的 那 部 分 地 
址 空间 找 个 地 方 存储 起 来 。 一 般 来 说 ， 这 个 地 方 有 一 个 特点 ， 那 就 是 
比 内 存 有 更 大 的 容量 。 因 此 ， 一 般 来 说 也 更 慢 〈 如 果 它 足够 快 ， 我 们 
就 可 以 像 使 用 内 存 一 样 使 用 ， 对 吗 ? ) 。 在 现代 系统 中 ， 硬 盘 (hard 
disk drive) 通常 能 够 满足 这 个 需求 。 因 此 ， 在 我 们 的 存储 层级 结构 
中 ， 大 而 慢 的 硬盘 位 于 底层 ， 内 存 之 上 。 那 么 我 们 的 关键 问题 是 : 











关键 问题 : 如 何 超越 物理 内 存 


操作 系统 如 何 利用 大 而 慢 的 设备 ， 透 明 地 提供 巨大 虚拟 地 址 
空间 的 假象 ? 


你 可 能 会 问 一 个 问题 : 为 什么 我 们 要 为 进程 文 持 巨 大 的 地 址 空间 ? 答 
案 还 是 方便 和 易 用 性 。 有 了 巨大 的 地 址 空间 ， 你 不 必 担 心 程序 的 数据 
结构 是 否 有 足够 空间 存储 ， 只 需 上 自然 地 编写 程序 ， 根 据 需 要 分 配 内 
存 。 这 是 操作 系统 提供 的 一 个 强大 的 假象 ， 使 你 的 生活 简单 很 多 。 别 
客气 ! 一 个 反面 例子 是 ， 一 些 早期 系统 使 用 “内 存 宪 产 (memory 
overlays ) ”， 它 需要 程序 员 根 据 需 要 手动 移入 或 移出 内 存 中 的 代码 
或 数据 [D97] 。 设 想 这 样 的 场景 : 在 调用 函数 或 访问 某 些 数据 之 前 ， 你 
需要 先 安排 将 代码 或 数据 移入 内 存 。 











补充 : 存储 技术 


稍 后 将 深入 介绍 IZ0 设 备 如 何 运 行 。 所 以 少 安 考 躁 ! 当然 ， 这 
个 较 慢 的 设备 可 以 是 硬盘 ， 也 可 以 是 一 些 更 新 的 设备 ， 比 如 
基于 闪存 的 SSD。 我 们 也 会 讨论 这 些 内 容 。 但 是 现在 ， 只 要 假 
设 有 一 个 大 而 较 慢 的 设备 ， 可 以 利用 它 来 构建 巨大 虚拟 内 存 
的 假象 ， 甚 至 比 物理 内 存 本 号 更 大 。 


不 仅 是 一 个 进程 ， 增 加 交换 空间 让 操作 系统 为 多 个 并 发 运行 的 进程 都 
提供 巨大 地 址 空间 的 假象 。 多 道 程 序 〈 能 够 “同时 ”运行 多 个 程序 ， 
更 好 地 利用 机 器 资源 ) 的 出 现 ， 强 烈 要 求 能 够 换 出 一 些 页 ， 因 为 早期 
的 机 器 显然 不 能 将 所 有 进程 需要 的 所 有 页 同时 放 在 内 存 中 。 因 此 ， 多 
道 程序 和 易 用 性 都 需要 操作 系统 支持 比 物理 内 存 更 大 的 地 址 空间 。 这 
ee 
1 内容。 


21. 1 交换 空间 





我 们 要 做 的 第 一 件 事 情 就 是 ， 在 硬盘 上 开放 一 部 分 空间 用 于 物理 页 的 
移入 和 移出 。 在 操作 系统 中 ， 一 般 这 样 的 空间 称 为 交换 空间 (swap 
space) ， 因 为 我 们 将 内 存 中 的 页 交换 到 其 中 ， 并 在 需要 的 时 候 又 交换 
回去 。 因 此 ， 我 们 会 假设 操作 系统 能 够 以 页 大 小 为 单元 读 取 或 者 写 入 
交换 空间 。 为 了 达到 这 个 目的 ， 操 作 系 统 需 要 记 住 给 定 页 的 人 硬盘 地 址 
(disk address) 。 


交换 空间 的 大 小 是 非常 重要 的 ， 它 决定 了 系统 在 某 一 时 刻 能 够 使 用 的 
最 大 内 存 页 数 。 简 单 起 见 ， 现 在 假设 它 非常 大 。 


在 小 例子 中 《 见 图 21.1) ， 你 可 以 看 到 一 个 4 页 的 物理 内 存 和 一 个 8 页 
的 交换 空间 。 在 这 个 例子 中 ，3 个 进程 〈 进 程 0、 进 程 1 和 进程 2) 主动 
共享 物理 内 存 。 但 3 个 中 的 每 一 个 ， 都 只 有 一 部 分 有 效 页 在 内 存 中 ， 剩 
下 的 在 硬盘 的 交换 空间 中 。 第 4 个 进程 《进程 3) 的 所 有 页 都 被 区 换 到 
硬盘 上 ， 因 此 很 清楚 它 目前 没有 运行 。 有 一 块 交 换 空 间 是 空 亲 的 。 即 











使 通过 这 个 小 例子 ， 你 应 该 也 能 看 出 ， 使 用 交换 空间 如 何 让 系统 假装 
内 存 比 实际 物理 内 存 更 大 。 


我 们 需要 注意 ， 交 换 空间 不 是 唯一 的 人 硬盘 交换 目的 地 。 例 如 ,假设 运 
行 一 个 二 进 制 程序 〈 如 1s， 或 者 你 自己 编译 的 main 程 序 ) 。 这 个 二 进 
制程 序 的 代码 页 最 开始 是 在 硬盘 上 ， 但 程序 运行 的 时 候 ， 它 们 被 加 载 
到 内 存 中 (要 么 在 程序 开始 运行 时 全 部 加 载 ， 要 么 在 现代 操作 系统 
中 ， 按 需要 一 页 一 页 加 载 )。 但 是 ， 如 果 系 统 需 要 在 物理 内 存 中 腾 出 
空间 以 满足 其 他 需求 ， 则 可 以 安全 地 重新 使 用 这 些 代 码 页 的 内 存 空 
间 ， 因 为 稍 后 它 又 可 以 重新 从 硬盘 上 的 二 进 制 文件 加 载 。 
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图 21. 1 物理 内 存 和 交换 空间 








21.2 存在 位 


现在 我 们 在 硬盘 上 有 一 些 空间 ， 需 要 在 系统 中 增加 一 些 更 高 级 的 机 
六 


hea 


先 回想 一 下 内 存 引 用 发 生 了 什么 。 正 在 运行 的 进程 生成 虚拟 内 存 引用 
《用 于 获取 指令 或 访问 数据 ) ， 在 这 种 情况 下 ， 硬 件 将 其 转换 为 物理 
地 址 ， 再 从 内 存 中 获取 所 需 数据 。 


硬件 首先 从 虚拟 地 址 获得 VPN， 检 查 TLB 是 否 匹 配 (TLB 命 中 ) ， 如 果 命 
中 ， 则 获得 最 终 的 物理 地 址 并 从 内 存 中 取 回 。 这 和 希望 是 常见 情形 ， 因 
为 它 很 快 〈 不 需要 额外 的 内 存 访 问 ) 。 


如 有 条 在 TLB 中 找 不 到 VPN《〈 即 TLB 未 命中 ) ， 则 硬件 在 内 存 中 碍 找 页 表 
《使 用 页 表 基 址 寄存 器 ) ， 并 使 用 VPN 查 找 该 页 的 页 表 项 (PTE) 作为 
索引 。 如 果 页 有 效 且 存在 于 物理 内 存 中 ， 则 硬件 从 PTE 中 获得 PFN， 将 
其 插入 TLB， 并 重 试 该 指令 ， 这 次 产生 TLB 命 中 。 到 现在 为 止 还 挺 好 。 


但 是 ， 如 果 希 望 允许 页 交换 到 人 硬盘， 必须 添加 更 多 的 机 制 。 具 体 来 
说 ， 当 硬件 在 PTE 中 查找 时 ， 可 能 发 现 页 不 在 物理 内 存 中 。 硬 件 (或 操 
作 系 统 ， 在 软件 管理 TLB 时 ) 判断 是 否 在 内 存 中 的 方法 ， 是 通过 页 表 项 
中 的 一 条 新 信息 ， 即 存在 位 (present bit) 。 如 果 存 在 位 设置 为 1， 
则 表示 该 页 存在 于 物理 内 存 中 ， 并 且 所 有 内 容 都 如 上 所 述 进行 。 如 果 
存在 位 设置 为 零 ， 则 页 不 在 内 存 中 ， 而 在 硬盘 上 。 访 问 不 在 物理 内 存 
中 的 页 ， 这 种 行为 通常 被 称 为 页 错误 (page fault) 。 














补充 : 交换 术语 及 其 他 


对 于 不 同 的 机 器 和 操作 系统 ， 虚 拟 内 存 系 统 的 术语 可 能 会 有 
把 令 人 困惑 和 不 同 。 例 如 ， 页 错误 (page fault) 一 般 是 指 
对 页 表 引 用 时 产生 某 种 错误 : 这 可 能 包括 在 这 里 讨论 的 错误 
类 型 ， 即 页 不 存在 的 错误 ， 但 有 时 指 的 是 内 存 非 法 访问 。 事 
实 上 ， 我 们 将 这 种 完全 合法 的 访问 《页 被 映射 到 进程 的 虚拟 
地 址 空间 ， 但 此 时 不 在 物理 内 存 中 ) 称 为 “错误 ”是 很 奇怪 
的 。 实 际 上 ， 它 应 该 被 称 为 “页 未 命中 (page miss) ”。 但 
是 通常 ， 当 人 们 说 一 个 程序 “页 错误 ”时 ， 意 味 着 它 正 在 访 
问 的 虚拟 地 址 空间 的 一 部 分 ， 被 操作 系统 交换 到 了 硬盘 上 。 


我 们 怀疑 这 种 行为 之 所 以 被 称 为 “错误 ”， 是 因为 操作 系统 
中 的 处 理 机 制 。 当 一 些 不 寻常 的 事情 发 生 的 时 候 ， 即 硬件 不 
知道 如 何 处 理 的 时 候 ， 硬 件 只 是 简单 地 把 控制 权 交 给 操作 系 
统 ， 和 希望 操作 系统 能 够 解决 。 在 这 种 情况 下 ， 进 程 想 要 访问 











的 页 不 在 内 存 中 。 硬 件 唯一 能 做 的 就 是 触发 异常 ， 操 作 系 统 
从 开始 接管 。 由 于 这 与 进程 执行 非法 操作 处 理 流程 一 样 ， 所 
以 我 们 把 这 个 活动 称 为 “错误 ”， 这 也 许 并 不 奇怪 。 


在 页 错误 时 ， 操 作 系 统 被 唤起 来 处 理 页 错误 。 一 段 称 为 “页 错误 处 理 
程序 (page-fault handler ) ”的 代码 会 执行 ， 来 处 理 页 错误 ， 接 下 
来 就 会 讲 。 


21.3 页 错误 





回想 一 下 ， 在 TLB 未 命中 的 情况 下 ， 我 们 有 两 种 类 型 的 系统 : 硬件 管理 
的 TLB《〈《 硬 件 在 页 表 中 找到 需要 的 转换 映射 ) 和 软件 管理 的 TLB《〈 操 作 
系统 执行 查找 过 程 ) 。 不 论 在 哪 种 系统 中 ， 如 果 页 不 存在 ， 都 由 操作 
系统 负责 处 理 页 错误 。 操 作 系 统 的 页 错误 处 理 程序 〈page-fault 
handler ) 确定 要 做 什么 。 几 乎 所 有 的 系统 都 在 软件 中 处 理 页 错误 。 即 
使 是 硬件 管理 的 TLB， 硬 件 也 信任 操作 系统 来 管理 这 个 重要 的 任务 。 


如 果 一 个 页 不 存在 ， 它 已 被 交换 到 人 硬盘， 在 处 理 页 错误 的 时 候 ， 操 作 
系统 需要 将 该 页 交换 到 内 存 中 。 那 么 ， 问 题 来 了 : 操作 系统 如 何 知 道 
所 需 的 页 在 哪儿 ? 在 许多 系统 中 ， 页 表 是 存储 这 些 信息 最 自然 的 地 
方 。 因 此 ， 操 作 系统 可 以 用 PTE 中 的 某 些 位 来 存储 硬盘 地 址 ， 这 些 位 通 
常用 来 存储 像 页 的 PFN 这 样 的 数据 。 当 操作 系统 接收 到 页 错误 时 ， 它 会 
在 PTE 中 会 找 地 址 ， 并 将 请 求 发送 到 人 硬盘 ， 将 页 读 取 到 内 存 中 。 

















补充 : 为 什么 硬件 不 能 处 理 页 错误 


我 们 从 TLB 的 经 验 中 得 知 ， 硬 件 设计 者 不 愿意 信任 操作 系统 做 
所 有 事情 。 那 么 为 什么 他 们 相信 操作 系统 来 处 理 页 错误 呢 ? 
有 几 个 主要 原因 。 首 先 ， 页 错误 导致 的 硬盘 操作 很 慢 。 即 使 
操作 系统 需要 很 长 时 间 来 处 理 故 障 ， 执 行 大 量 的 指令 ,但 相 
比 于 硬盘 操作 ， 这 些 额 外 开销 是 很 小 的 。 其 次 ， 为 了 能 够 处 
理 页 故障 ， 硬 件 必 须 了 解 区 换 空 间 ， 如 何 同 硬盘 发 起 LI/0 操 


作 ， 以 及 很 多 它 当 前 所 不 知道 的 细节 。 因 此 ， 由 于 性 能 和 简 
单 的 原因 ， 操 作 系 统 来 处 理 页 错误 ， 即 使 硬件 人 员 也 很 开 
人 心 如 








当 人 硬盘 I/]0 完 成 时 ， 操 作 系 统 会 更 新 页 表 ， 将 此 页 标记 为 存在 ， 更 新 页 
表 项 (PTE) 的 PFN 字 段 以 记录 新 获取 页 的 内 存 位 置 ， 并 重 试 指令 。 下 
一 次 重新 访问 TLB 还 是 未 命中 ， 然 而 这 次 因为 页 在 内 存 中 ， 因 此 会 将 页 
表 中 的 地 址 更 新 到 TLB 中 (也 可 以 在 处 理 页 错误 时 更 新 TLB 以 避免 此 步 
又 ) 。 最 后 的 重 试 操作 会 在 TLB 中 找到 转换 映射 ， 从 已 转换 的 内 存 物 
理 地 址 ， 获 取 所 需 的 数据 或 指令 。 


请 注意 ， 当 1/0 在 运行 时 ， 进 程 将 处 于 阻 窒 〈blocked) 状态 。 因 此 ， 
当 页 错误 正常 处 理 时 ， 操 作 系 统 可 以 自由 地 运行 其 他 可 执行 的 进程 。 
因为 1 /0 操作 是 昂 足 的 ， 一 个 进程 进行 /0 页 错误 ) 时 会 执行 另 一 个 
进程 ， 这 种 交 车 (overlap) 是 多 道 程序 系统 充分 利用 硬件 的 一 种 方 


式 。 





21.4 内 存 满 了 怎么 办 


在 上 面 描述 的 过 程 中 ， 你 可 能 会 注意 到 ， 我 们 假设 有 足够 的 空闲 内 存 
来 从 存储 交换 空间 换 入 (page in) 的 页 。 当 然 ， 情 况 可 能 并 非 如 此 。 
内 存 可 能 已 满 〈 或 接近 满 了 ) 。 因 此 ， 操 作 系统 可 能 希望 先 交 换 出 
(page out ) 一 个 或 多 个 页 ， 以 便 为 操作 系统 即将 交换 入 的 新 页 留 出 
空间 。 选 择 哪些 页 被 交换 出 或 被 蔡 换 (replace) 的 过 程 ， 被 称 为 页 交 
换 策 略 (page-replacement policy) 。 


事实 表明 ， 人 们 在 创建 好 页 交换 策略 上 投入 了 许多 思考 ， 因 为 换 出 不 
合适 的 页 会 导致 程序 性 能 上 的 巨大 损失 ， 也 会 导致 程序 以 类 似 便 盘 的 
速度 运行 而 不 是 以 类 似 内 存 的 速度 。 在 现 有 的 技术 条 件 下 ， 这 意味 着 
程序 可 能 会 运行 慢 10000 一 100000 倍 。 因 此 ， 这 样 的 策略 是 我 们 应 该 详 
细 研 究 的 。 实 际 上 ， 这 也 正 是 我 们 下 一 章 要 做 的 。 现 在 ， 我 们 只 要 知 
道 有 这 样 的 策略 存在 ， 建 立 在 之 前 描述 的 机 制 之 上 。 

















21.5 页 错误 处 理 流程 





有 了 这 些 知识 ， 我 们 现在 就 可 以 粗略 地 描绘 内 存 访 问 的 完整 流程 。 换 
言 之 ， 如 果 有 人 问 你 : “ 当 程 序 从 内 存 中 读 取 数 据 会 及 生 什么 ? ”， 
你 应 该 对 所 有 不 同 的 可 能 性 有 了 很 好 的 概念 。 有 关 详 细 信息 ， 请 参见 
图 21.2 和 图 21. 3 中 的 控制 流 。 图 21. 2 展示 了 硬件 在 地 址 转换 过 程 中 所 
做 的 工作 ， 图 21. 3 展示 了 操作 系统 在 页 错误 时 所 做 的 工作 。 



















































































灿 VPN = (VirtualAddress & VPN MASK) >> SHIFT 

和 2 (Success, TlbEntry) = TLB Lookup (VPN) 

3 if (Success == True) /TLB: HIE 

4 if (CanAccess (TlbEntry.ProtectBits) == True) 
5 Offset = VirtualAddress & OFFSET MASK 
6 PhysAddr = (TlbEntry.PFN << SHIFT) | Offset 
7 Register = AccessMemory (PhysAddr) 

8 else 

9 RaiseException (PROTECTION FAULT) 

10 else // TLB Miss 

让 入 PTEAddr = PTBR + (VPN * sizeof (PTE)) 

下 六 PTE = AccessMemory (PTEAddr) 

13 if (PTE.Valid == False) 

14 RaiseException (SEGMENTATION FAULT) 

1s else 

16 if (CanAccess (PTE.ProtectBits) == False) 
17 RaiseException (PROTECTION FAULT) 

下 else if (PTE.Present == True) 

19 // assuming hardware-managed TLB 

20 TLB Insert (VPN, PTE.PFN, PTE.ProtectBits) 
21 RetryInstruction() 

22 else if (PTE.Present == False) 

23 RaiseException (PAGE FAULT) 
































图 21. 2 页 错误 控制 流 算法 (硬件 ) 


从 图 21. 2 的 硬件 控制 流 图 中 ， 可 以 注意 到 当 TLB 未 命中 发 生 的 时 候 有 3 
种 重要 情景 。 第 一 种 情况 ， 该 页 存在 (present ) 且 有 效 (valid) 
(第 18 一 21 行 ) 。 在 这 种 情况 下 ，TLB 未 命中 处 理 程序 可 以 简单 地 从 
PTE 中 获取 PFN， 然 后 重 试 指令 (这 次 TLB 会 命中 ) ， 并 因此 继续 前 面 描 
述 的 流程 。 第 二 种 情况 〈 第 22 一 23 行 ) ， 页 错误 处 理 程序 需要 运行 。 
虽然 这 是 进程 可 以 访问 的 合法 页 (毕竟 是 有 效 的 ) ， 但 它 并 不 在 物理 
内 存 中 。 第 三 种 情况 ， 访 问 的 是 一 个 无 效 页 ， 可 能 由 于 程序 中 的 错误 
(第 13 一 14 行 ) 。 在 这 种 情况 下 ，PTE 中 的 其 他 位 都 不 重要 了 。 硬 件 捕 
获 这 个 非法 访问 ， 操 作 系 统 陷 阱 处 理 程序 运行 ， 可 能 会 杀 死 非法 进 


程 。 














从 图 21. 3 的 软件 控制 流 中 ， 可 以 看 到 为 了 处 理 页 错误 ， 操 作 系 统 大 致 
做 了 什么 。 首 先 ， 操 作 系统 必须 为 将 要 换 入 的 页 找到 一 个 物理 帧 ， 如 
果 没 有 这 样 的 物理 帧 ， 我 们 将 不 得 不 等 待 交换 算法 运行 ， 并 从 内 存 中 
踢 出 一 些 页 ， 释 放 帧 供 这 里 使 用 。 在 获得 物理 帧 后 ， 处 理 程序 发 出 1/0 
请 求 从 交换 空间 读 取 页 。 最 后 ， 当 这 个 慢 操作 完成 时 ， 操 作 系统 更 新 
页 表 并 重 试 指令 。 重 试 将 导致 TLB 未 命中 ， 然 后 再 一 次 重 试 时 ，TLB 命 
中 ， 此 时 硬件 将 能 够 访问 所 需 的 值 。 














1 PEN = FindFreePhysicalpPage() 

这 if (PFN == -1) // no free page found 

3 PFN = EvictPage() // run replacement algorithm 

4 DiskRead (PTE.DiskAddr, pfn) // sleep (waiting for I/O) 

5 PTE.present = True // update page table with present 
6 PTE .PFN = PEN // bit and translation (PFN) 

了 RetryInstruction() // retry instruction 




















图 21. 3 页 错误 控制 流 算法 (软件 


21.6 交换 何 时 真正 发 生 


Veal 





到 目前 为 止 ， 我 们 一 直 描述 的 是 操作 系统 会 等 到 内 存 已 经 完全 满 了 以 
后 才 会 执行 交换 流程 ， 然 后 才 蔡 换 《〈 踢 出 ) 一 个 页 为 其 他 页 腾 出 空 
间 。 正 如 你 想象 的 那样 ， 这 有 点 不 切实 际 的 ， 因 为 操作 系统 可 以 更 主 
动 地 预 留 一 小 部 分 空闲 内 存 。 


为 了 保证 有 少量 的 空 亲 内 存 ， 大 多 数 操 作 系 统 会 设置 高 水 位 线 (High 
Watermark，HW) 和 低 水 位 线 (Low Watermark，LW) ， 来 帮助 决定 何 
时 从 内 存 中 清除 页 。 原 理 是 这 样 : 当 操 作 系 统 发 现 有 少 于 LW 个 页 可 用 
时 ， 后 台 负 责 释 放 内 存 的 线程 会 开始 运行 ， 直 到 有 一 个 可 用 的 物理 
页 。 这 个 后 台 线 程 有 时 称 为 交换 守护 进程 (swap daemon) 或 页 守护 进 
程 (page daemon) { 直 ， 它 然后 会 很 开心 地 进入 休眠 状态 ， 因 为 它 毕 竟 
为 操作 系统 释放 了 一 些 内 存 。 


通过 同时 执行 多 个 交换 过 程 ， 我 们 可 以 进行 一 些 性 能 优化 。 例 如 ， 许 
多 系统 会 把 多 个 要 写 入 的 页 聚集 (cluster) 或 分 组 (group) ， 同 时 
写 入 到 交换 区 间 ， 从 而 提高 硬盘 的 效率 [LL82] 。 我 们 稍 后 在 讨论 硬盘 




















时 将 会 看 到 ， 这 种 合并 操作 减少 了 硬盘 的 寻 道 和 旋转 开销 ， 从 而 显著 


提高 了 性 能 。 


为 了 配合 后 台 的 分 页 线程 ， 图 21. 3 中 的 控制 流 需要 稍 作 修 改 。 交 换算 
法 需要 先 简 单 检查 是 否 有 空 采 页 ， 而 不 是 直接 执行 其 换 。 如 果 没 有 空 
有 内 页 ， 会 通知 后 台 分 页 线程 按 需 要 释放 页 。 当 线程 释放 一 定数 目的 页 
时 ， 它 会 重新 唤醒 原来 的 线程 ， 然 后 就 可 以 把 需要 的 页 交换 进 内 存 ， 
继续 它 的 工作 。 




















提示 : 把 一 些 工 作 放 在 后 台 


当 你 有 一 些 工 作 要 做 的 时 候 ， 把 这 些 工 作 放 在 后 台 
(background) 运行 是 一 个 好 注意 ， 可 以 提高 效率 ， 并 人 允许 
将 这 些 操作 合并 执行 。 操 作 系 统 通 常 在 后 台 执 行 很 多 工作 。 
例如 ， 在 将 数据 写 入 硬盘 之 前 ， 许 多 系统 在 内 存 中 绥 冲 要 写 
入 的 数据 。 这 样 做 有 很 多 好 处 : 提高 硬盘 效率 ， 因 为 硬盘 现 
在 可 以 一 次 写 入 多 次 要 写 入 的 数据 ， 因 此 能 够 更 好 地 调度 这 
些 写 入 。 优 化 了 写 入 延迟 ， 因 为 数据 写 入 到 内 存 束 可 以 返 
回 。 可 能 减少 某 些 操作 ， 因 为 写 入 操作 可 能 不 需要 写 入 硬盘 
例如， 如 果 文 件 马 上 又 被 删除 ) ， 也 能 更 好 地 利用 系统 空 
朵 时 间 〈idle time) ， 因 为 系统 可 以 在 空闲 时 完成 后 台 工 
作 ， 从 而 更 好 地 利用 硬件 资源 [G+95] 。 

















921. 了 放 


在 这 个 简短 的 一 章 中 ， 我 们 介绍 了 访问 超出 物理 内 存 大 小 时 的 一 些 概 
念 。 要 做 到 这 一 点 ， 在 页 表 结 构 中 需要 添加 额外 信息 ， 比 如 增加 一 个 
存在 位 (present bit， 或 者 其 他 类 似 机 制 ) ， 告 诉 我 们 页 是 不 是 在 内 
存 中 。 如 果 不 存 在 ， 则 操作 系统 页 错误 处 理 程序 (page-fault 
handler ) 会 运行 以 处 理 页 错误 (page fault) ， 从 而 将 需要 的 页 从 便 
可 能 还 需要 先 换 出 内 存 中 的 一 些 页 ， 为 即将 换 入 的 页 
着 出 空间 。 











回想 一 下 ， 很 重要 的 是 (并 且 令 人 惊讶 的 是 ) ， 这 些 行为 对 进程 都 是 
透明 的 。 对 进程 而 言 ， 它 只 是 访问 目 己 私 有 的 、 连 续 的 虚拟 内 存 。 在 
后 台 ， 物 理 页 被 放置 在 物理 内 存 中 的 任意 〈 非 连续 ) 位 置 ， 有 时 它们 
甚至 不 在 内 存 中 ， 需 要 从 硬盘 取 回 。 虽 然 我 们 希望 在 一 般 情况 下 内 存 
访问 速度 很 快 ， 但 在 茶 些 情况 下 ， 它 需要 多 个 硬盘 操作 的 时 间 。 像 执 
行 单 条 绰 令 这 样 简单 的 事情 ， 在 最 坏 的 情况 下 ， 可 能 需要 很 多 秒 
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很 多 很 好 的 例子 。 
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[1 “守护 进程 (daemon) ”这 个 词 通常 发 音 为 “demon”， 它 是 
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在 虚拟 内 存 管 理 程序 中 ， 如 果 拥 有 大 量 空 采 内 存 ， 操 作 就 会 变 得 很 容 
易 。 页 错误 发 生 了 ， 你 在 空间 页 列表 中 找到 空间 页， 将 它 分 配给 不 在 
内 存 中 的 页 。 嘿 ， 操 作 系 统 ， 恭 喜 ! ”你 又 成 功 了 。 


遗憾 的 是 ， 当 内 存 不 够 时 事情 会 变 得 更 有 趣 。 在 这 种 情况 下 ， 由 于 内 
存 压力 (memory pressure) 迫使 操作 系统 换 出 〈paging out ) 一 些 
页 ， 为 常用 的 页 腾 出 空间 。 确 定 要 踢 出 (evict) 哪个 页 (或 哪些 页 ) 
封装 在 操作 系统 的 替换 策略 (replacement policy) 中 。 历 史上 ， 这 
是 早期 的 虚拟 内 存 系 统 要 做 的 最 重要 的 决定 之 一 ， 因 为 旧 系 统 的 物理 
I 
[下 上 所 示 。 











关键 问题 : 如何 决定 踢 出 哪个 页 


操作 系统 如 何 决定 从 内 存 中 踊 出 哪 一 页 〈 或 哪 几 页 ) ? 这 个 
决定 由 系统 的 蔡 换 策略 做 出 ， 蔡 换 策 略 通常 会 遭 循 一 些 通 用 
的 原则 《下 面 将 会 讨论 ) ， 但 也 会 包括 一 些 调整 ， 以 避免 特 
殊 情 况 下 的 行为 。 


22.1 缓存 管理 


在 深入 研究 策略 之 前 ， 先 详细 描述 一 下 我 们 要 解决 的 问题 。 由 于 内 存 
只 包含 系统 中 所 有 页 的 子 集 ， 因 此 可 以 将 其 视 为 系统 中 虚拟 内 存 页 的 
缓存 〈cache) 。 因 此 ， 在 为 这 个 缓存 选择 蔡 换 策略 时 ， 我 们 的 目标 是 
让 绥 存 未 命中 《〈cache miss) 最 少 ， 即 使 得 从 磁盘 获取 页 的 次 数 最 


少 。 或 者 ， 可 以 将 目标 看 成 让 绥 存 命中 〈cache hit) 最 多 ， 即 在 内 存 
中 找到 待 访问 页 的 次 数 最 多 。 


知道 了 缓存 命中 和 未 命中 的 次 数 ， 就 可 以 计算 程序 的 平均 内 存 访 问 时 
间 (Average Memory Access Time，AMAT， 计 算 机 架构 师 衡 量 人 硬件 组 
存 的 指标 [HP06] ) 。 有 具体 来 说 ， 给 定 这 些 值 ， 可 以 按照 如 下 公式 计算 
AMAT: 


MT (pe 0 Cas 


其 中 了 表示 访问 内 存 的 成 本 ， 7 表示 访问 磁盘 的 成 本 ，P 表示 在 缓存 
中 找到 数据 的 概率 《命中 ) ，Prss 表 示 在 缓存 中 找 不 到 数据 的 概率 
(未 命中 ) 。 记 7， 和 忆 从 0. 0 变化 到 1.0， 并 且 P， + Pyi, = 1.0。 


例如 ， 假 设 有 一 个 机 器 有 小 型 地 址 空间 : 4KB， 每 页 256 字 节 。 因 此 ， 
虚拟 地 址 由 两 部 分 组 成 :一 个 4 位 VPN 〈 最 高 有 效 位 ) 和 一 个 8 位 偏 移 量 
(最 低 有 效 位 ) 。 因 此 ， 本 例 中 的 一 个 进程 可 以 访问 总 共 24 =16 个 虚 
拟 页 。 在 这 个 例子 中 ， 该 进程 将 产生 以 下 内 存 引用 《〈 即 虚拟 地 址 ) 
0x000 ， 0x100 ， 0x200 ， 0x300 ， 0x400 ， 0x500 ， 0x600 ， 0x700 ， 
0x800，0x900。 这 些 虚拟 地 址 指向 地 址 空间 中 前 10 页 的 每 一 页 的 第 一 
个 字 节 (页 号 是 每 个 虚拟 地 址 的 第 一 个 十 六 进 制 数字 〉。 


让 我 们 进一步 假设 ， 除 了 虚拟 页 3 之 外 ， 所 有 页 都 已 经 在 内 存 中 。 
此 ， 我 们 的 内 存 引 用 序列 将 遇 到 以 下 行为 : 命中 ， 命 中 ， 合 中， 未 命 
中 ， 人 命中， 命中 ， 命 中， 命中 ， 命 中。 我 们 可 以 计算 命中 率 (hit 
rate， 在 内 存 中 找到 引用 的 百分比 ) : 90% (Pyj, = 0.9) ， 因 为 10 个 
引用 中 有 9 个 在 内 存 中 。 未 命中 率 (miss rate) 显然 是 10% (Pr。。 = 
0.1) 。 


要 计算 AMAT， 需 要 知道 访问 内 存 的 成 本 和 访问 磁盘 的 成 本 。 假 设 访问 
内 存 〈TM) 的 成 本 约 为 100ns， 并 且 访 问 磁盘 (TD ) 的 成 本 大 约 为 
10ms， 则 我 们 有 以 下 AMAT: 0.9X100ns + 0.1XX1l0ms， 即 90ns + lms 
或 1.0009ms ， 或 约 lms。 如 果 我 们 的 命中 率 是 99.9% 〈Pwuis。= 
0. 001) ， 结 果 是 完全 不 同 的 : AMAT 是 10. 1 ns， 大 约 快 100 倍 。 当 命中 
率 接近 100% 时 ，AMAT 接 近 100ns。 














遗憾 的 是 ， 正 如 你 在 这 个 例子 中 看 到 的 ， 在 现代 系统 中 ， 磁 盘 访 问 的 
成 本 非常 高 ， 即 使 很 小 概率 的 未 命中 也 会 拉 低 正在 运行 的 程序 的 总 体 
AMAT。 显 然 ， 我 们 必须 尽 可 能 地 避免 缓存 未 命中 ， 避 人 免 程序 以 磁盘 的 
速度 运行 。 要 做 到 这 一 点 ， 有 一 种 方法 就 是 仔细 开发 一 个 聪明 的 策 
略 ， 像 我 们 现在 所 做 的 一 样 。 











22.2 最 优 蔡 换 策略 


为 了 更 好 地 理解 一 个 特定 的 替换 策略 是 如 何 工 作 的 ， 将 它 与 最 好 的 蔡 
换 策 略 进行 比较 是 很 好 的 方法 。 事 实证 明 ， 这 样 一 个 最 优 optimal ) 
策略 是 Belady 多 年 前 开发 的 [B66] 〈 原 来 这 个 策略 叫 作 MIN) 。 最 优 蔡 
换 策 略 能 达到 总 体 未 命中 数量 最 少 。Belady 展 示 了 一 个 简单 的 方法 
(但 遗憾 的 是 ， 很 难 实现 ! ) ， 即 替换 内 存 中 在 最 远 将 来 才 会 被 访问 
到 的 页 ， 可 以 达到 缓存 未 命中 率 最 低 。 








提示 : 与 最 优 策略 对 比 非 常 有 用 


虽然 最 优 策略 非常 不 切实 际 ， 但 作为 仿真 或 其 他 研究 的 比较 
者 还 是 非常 有 用 的 。 比 如 ， 单 说 你 喜欢 的 新 算法 有 80% 的 命中 
率 是 没有 意义 的 ， 但 加 上 最 优 算法 只 有 82% 的 命中 率 (因此 你 
的 新 方法 非常 接近 最 优 ) ， 就 会 使 得 结果 很 有 意义 ， 并 给 出 
了 它 的 上 下 文 。 因 此 ， 在 你 进行 的 任何 研究 中 ， 知 道 最 优 策 
略 可 以 方便 进行 对 比 ， 知 道 你 的 策略 有 多 大 的 改进 空间 ， 也 
ee 
AD03j 。 

















希望 最 优 策略 背后 的 想法 你 能 理解 。 这 样 想 ;如 果 你 不 得 不 踢 出 一 些 
页 ， 为 什么 不 中 出 在 最 远 将 来 才 会 访问 的 页 呢 ? 这 样 做 基本 上 是 说 ， 
缓存 中 所 有 其 他 页 都 比 这 个 页 重要 。 道 理 很 简单 : 在 引用 最 远 将 来 会 
访问 的 页 之 前 ， 你 肯定 会 引用 其 他 页 。 





我 们 人 退 踩 一 个 简单 的 例子 ， 来 理解 最 优 策略 的 决定 。 假 设 一 个 程序 按 
照 以 下 顺序 访问 虚拟 页 : 0， 1 ， 23 0， 1 ， 3， 0， 3; 1 ， 2 1 表 22. 1 
展示 了 最 优 的 策略 ， 这 里 假设 缓存 可 以 存 3 个 页 。 


在 表 22. 1 中 ， 可 以 看 到 以 下 操作 。 不 要 惊讶 ， 前 3 个 访问 是 未 命中 ， 
为 缓存 开始 是 空 的 。 这 种 未 命中 有 时 也 称 作 冷 启 动 未 命中 (cold- 
start miss， 或 强制 未 命中 ，compulsory miss) 。 然 后 我 们 再 次 引用 
页 0 和 1， 它 们 都 在 缓存 中 。 最 后 ， 我 们 又 有 一 个 缓存 未 命中 (页 3) ， 
但 这 时 缓存 已 满 ， 必 须 进 行 蔡 换 ! 这 引出 了 一 个 问题 : 我 们 应 该 奉 换 
哪个 页 ?使 用 最 优 策略 ， 我 们 检查 当前 缓存 中 每 个 页 (0、1 和 2) 未 来 
访问 情况 ， 可 以 看 到 页 0 马上 被 访问 ， 页 1 稍 后 被 访问 ， 页 2 在 最 远 的 将 
来 被 访问 。 因 此 ， 最 优 策略 的 选择 很 简单 : 中 出 页 面 2， 结 果 是 缓存 中 
的 页 面 是 9、1 和 3。 接 下 来 的 3 个 引用 是 命中 的 ， 然 后 又 访问 到 被 我 们 
之 前 踢 出 的 页 2， 那 么 又 有 一 个 未 命中 。 这 里 ， 最 优 策略 再 次 检查 缓存 
页 (0、1 和 3) 中 每 个 页 面 的 未 来 被 访问 情况 ， 并 且 看 到 只 要 不 踢 出 页 
1( 即 将 被 访问 〉 就 可 以 。 这 个 例子 显示 了 页 3 被 喝 出 ， 虽 然 踢 出 0 也 是 
可 以 的 。 最 后 ， 我 们 命中 页 1， 奶 踩 完成 。 


表 22. 1 追踪 最 优 策略 
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补充 : 缓存 未 命中 的 类 型 


在 计算 机 体系 结构 世界 中 ， 架 构 师 有 时 会 将 未 命中 分 为 3 类 : 
强制 性 、 容 量 和 冲突 未 命中 ， 有 时 称 为 3C [H87] 。 发 生 强 制 
性 (compulsory miss) 未 命中 (或 冷 启动 未 命中 ，cold- 
start miss [EF78] ) 是 因为 绥 存 开始 是 空 的 ， 而 这 是 对 项 目 
的 第 一 次 引用 。 与 此 不 同 ， 由 于 绥 存 的 空间 不 足 而 不 得 不 中 
出 一 个 项 目 以 将 新 项 目 引 入 缓存 ， 就 发 生 了 容量 未 命中 
(capacity miss ) 。 第 三 种 类 型 的 未 命中 (冲突 未 命中 ， 
conflict miss) 出 现在 硬件 中 ， 因 为 硬件 缓存 中 对 项 的 放置 
位 置 有 限制 ， 这 是 由 于 所 谓 的 集合 关联 性 ( set- 
associativity) 。 它 不 会 出 现在 操作 系统 页 面 缓存 中 ， 因 为 
这 样 的 缓存 总 是 完全 关联 的 (fully-associative) ， 即 对 页 
面 可 以 放置 的 内 存 位置 没 有 限制 。 详 情 请 见 H&P LHP06] 。 




















我 们 同时 计算 缓存 命中 率 : 有 6 次 命中 和 5 次 未 命中 ， 那 么 缓存 命中 率 
Hits 6 


Bs-isss 是 6-5， 或 54. 5%。 也 可 以 计算 命中 率 中 除去 强制 未 命中 ( 即 
忽略 页 的 第 一 次 未 命中 ) ， 那 么 命中 率 为 81. 8%。 


遗憾 的 是 ， 正 如 我 们 之 前 在 开发 调度 集 略 时 所 看 到 的 那样 ， 未 来 的 访 
问 是 无 法 知道 的 ， 你 无 法 为 通用 操作 系统 实现 最 优 策 略 *: 直 。 因 此 ， 在 





开发 一 个 真正 的 、 可 实现 的 策略 时 ， 我 们 将 聚焦 于 寻找 其 他 决定 把 哪 
个 页 面 足 出 的 方法 。 因 此 ， 节 优 策略 只 能 作为 比较 ， 知 道 我 们 的 策略 
有 多 接近 “完美 ”。 


22.3 简单 策略 : FIFO 


许多 早期 的 系统 避免 了 尝试 达到 最 优 的 复杂 性 ， 采 用 了 非常 简单 的 从 
换 策略 。 例 如 ， 一 些 系统 使 用 FIF0 (先入 先 出 〉 蔡 换 策略 。 页 在 进入 
系统 时 ， 简 单 地 放 入 一 个 队列 。 当 发 生 蔡 换 时 ， 队 列 尾 部 的 页 (“ 先 
入 ”页 ) 被 踢 出 。FIF0 有 一 个 很 大 的 优势 : 实现 相当 简单 。 


让 我 们 来 看 看 FIF0 策 略 如 何 执行 这 过 程 〈 见 表 22.2) 。 我 们 再 次 开始 
追踪 3 个 页 面 (、1 和 2。 首 先是 强制 性 未 命中 ， 然 后 命中 页 0 和 1。 接 下 
来 ， 引 用 页 3， 绥 存 未 命中 。 使 用 FIF0 策 略 决 定 蔡 换 哪个 页 面 是 很 容易 
的 : 选择 第 一 个 进入 的 页 ， 这 里 是 页 0〈 表 中 的 缓存 状态 列 是 按照 先进 
先 出 顺序 ， 最 左 侧 是 第 一 个 进来 的 页 ) ， 遗 憾 的 是 ， 我 们 的 下 一 个 访 
问 还 是 页 0， 导 致 另 一 次 未 命中 和 替换 〈 蔡 换 页 1) 。 然 后 我 们 命中 页 
3， 但 是 未 命中 页 1 和 2， 最 后 命中 页 3。 

















表 22. 2 追踪 FIF0 策 略 





访问 “| 命中 /未 命中 “| 因 出 “| 导致 缓存 状态 国清 


全 

二 

， 
| 


加 大 国 国 国 








SF 
5 
> 
| 
S 
一 
SS) 





个 


全 
王 


EE 入 一 0、 1、 2 


| 














| 


| 





国 硬 面 国 国 | 








命中 先入 一 i 2 
命中 先入 一 2、3、0 








5 
四 
| 














对 比 FIF0 和 最 优 策 略 ，FIF0 明 显 不 如 最 优 策 略 ，FIF0 命 中 率 只 有 36. 4% 
(不 包括 强制 性 未 命中 为 57. 1%) 。 先 进 先 出 〈FIF0) 根本 无 法 确定 页 
的 重要 性 : 即使 页 0 已 被 多 次 访问 ，FIF0 仍 然 会 将 其 踢 出 ， 因 为 它 是 第 
一 个 进入 内 存 的 。 


补充 ，Belady 的 异常 


Belady〈 最 优 策略 发 明 者 ) 及 其 同事 发 现 了 一 个 有 意思 的 引 
用 序列 [BNS69] 。 内 存 引 用 顺序 是 : 1，2，3，4，1，2，5， 
1，2，3，4，5。 他 们 正在 研究 的 蔡 换 策略 是 FIF0。 有 趣 的 问 
题 ， 当 缓存 大 小 从 3 变 成 4 时 ， 缓 存 命中 率 如 何 变化 ? 


一 般 来 说 ， 当 缓存 变 大 时 ， 缓 存 命中 率 是 会 提高 的 ( 变 
好 ) 。 但 在 这 个 例子 ， 采 用 FIF0， 命 中 率 反 而 下 降 了 ! 你 可 
以 自己 计算 一 下 缓存 命中 和 未 命中 次 数 。 这 种 奇怪 的 现象 被 
称 为 Belady 的 异常 (Belady” s Anomaly) 。 


其 他 一 些 策 略 ， 比 如 LRU， 不 会 遇 到 这 个 问题 。 可 以 猜 猜 为 什 
么 ?事实 证 明 ，LRU 具 有 所 谓 的 栈 特 性 (stack property ) 
[M+70] 。 对 于 具有 这 个 性 质 的 算法 ， 大 小 为 V+ 1 的 缓存 自然 
包括 大 小 为 M 的 缓存 的 内 容 。 因 此 ， 当 增加 绥 存 大 小 时 ， 绥 存 




















命中 率 至 少 保证 不 变 ， 有 可 能 提高 。 先 进 先 出 〈FIF0) 和 随 
机 (Random) 等 显然 没有 栈 特性 ， 因 此 容易 出 现 异 常 行为 。 





22.4 另 一 简单 策略 : 随机 


男 一 个 类 似 的 蔡 换 策略 是 随机 ， 在 内 存 满 的 时 候 它 随机 选择 一 个 页 进 
行 蔡 换 。 随 机 具有 类 似 于 FIF0 的 属性 。 实 现 起 来 很 简单 ， 但 是 它 在 挑 
选 奉 换 哪 个 页 时 不 够 智能 。 让 我 们 来 看 看 随机 策略 在 我 们 著名 的 例子 
上 的 引用 流程 〈 见 表 22.3) 。 


表 22. 3 追踪 随机 策略 
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当然 ， 随 机 的 表现 完全 取决 于 多 幸运 (或 不 对 ) 。 在 上 面 的 例子 中 ， 
随机 比 FIF0 好 一 点 ， 比 最 优 的 差 一 点 。 事 实 上 ， 我 们 可 以 运行 数 干 次 
的 随机 实验 ， 求 得 一 个 平均 的 结果 。 图 22. 1 显示 了 10000 次 试验 后 随机 
策略 的 平均 命中 率 ， 每 次 试验 都 有 不 同 的 随机 种 子 。 正 如 你 所 看 到 
的 ， 有 些 时 候 〈 仅 仅 40% 的 概率 ) ， 随 机 和 最 优 策略 一 样 好 ， 在 上 述 例 
子 中 ， 命 中 内 存 的 次 数 是 6 次 。 有 时 候 情况 会 更 糟 糙 ， 只 有 2 次 或 更 
少 。 随 机 策略 取决 于 当时 的 运气 。 
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图 22. 1 随机 策略 在 10000 次 尝试 下 的 表现 


22.5 利用 历史 数据 : LRU 


遗憾 的 是 ， 任 何 像 FIF0 或 随机 这 样 简单 的 策略 都 可 能 会 有 一 个 共同 的 
问题 : 它 可 能 会 踢 出 一 个 重要 的 页 ， 而 这 个 页 马上 要 被 引用 。 先 进 先 
出 〈FIF0) 将 先进 入 的 页 跑 出 。 如 果 这 恰好 是 一 个 包含 重要 代码 或 数 
据 结 构 的 页 ， 它 还 是 会 被 踢 出 ， 尽 管 它 很 快 会 被 重新 载 入 。 因 此 ， 
FIF0、Random 和 类 似 的 策略 不 太 可 能 达到 最 优 ， 需 要 更 智能 的 策略 。 


正如 在 调度 策略 所 做 的 那样 ， 为 了 提高 后 续 的 俞 中 率 ， 我 们 再 次 通过 
历史 的 访问 情况 作为 参考 。 例 如 ， 如 果菜 个 程序 在 过 去 访问 过 茶 个 
页 ， 则 很 有 可 能 在 不 久 的 将 来 会 再 次 访问 该 页 。 


页 蔡 换 策略 可 以 使 用 的 一 个 历史 信息 是 频率 〈frequency) 。 如 果 一 个 
页 被 访问 了 很 多 次 ， 也 许 它 不 应 该 被 蔡 换 ， 因 为 它 显 然 更 有 价值 。 页 
更 常用 的 属性 是 访问 的 近期 性 〈frecency) ， 越 近 被 访问 过 的 页 ， 也 许 
再 次 访问 的 可 能 性 也 就 越 大 。 


这 一 系列 的 策略 是 基于 人 们 所 说 的 局 部 性 原则 《〈principle of 
locality) [D70]， 基 本 上 只 是 对 程序 及 其 行为 的 观察 。 这 个 原理 简单 
地 说 就 是 程序 倾 问 于 频繁 地 访问 某 些 代码 《〈 例 如 循环 ) 和 数据 结构 
《例如 循环 访问 的 数组 ) 。 因 此 ， 我 们 应 该 党 试用 历史 数据 来 确定 哪 
些 页 面 更 重要 ， 并 在 需要 踢 出 页 时 将 这 些 页 保存 在 内 存 中 。 


因此 ， 一 系列 简单 的 基于 历史 的 算法 诞生 了 。“ 最 不 经 和 使 用 ?” 
(Least-Frequently-Used，LFU) 策略 会 蔡 换 最 不 经 常 使 用 的 页 。 同 
样 ，“ 最 少 最 近 使 用 ” (Least-Recently-Used，LRU) 策略 蔡 换 最 近 
最 少 使 用 的 页 面 。 这 些 算法 很 容易 记 住 : 一旦 知道 这 个 名 字 ， 束 能 确 
切 知道 它 是 什么 ， 这 种 名 字 就 非常 好 。 





























补充 : 局 部 性 类 型 


程序 倾 问 于 表现 出 两 种 类 型 的 局 部 。 第 一 种 是 空间 局 部 性 
(spatial locality) ， 它 指出 如 果 页 P 被 访问 ， 可 能 围绕 它 
的 页 《比如 P 一 1 或 P + 1) 也 会 被 访问 。 第 二 种 是 时 间 局 部 性 
(temporal locality) ， 它 指出 近期 访问 过 的 页 面 很 可 能 在 
不 久 的 将 来 再 次 访问 。 假 设 存在 这 些 类 型 的 局 部 性 ， 对 硬件 
系统 的 缓存 层次 结构 起 着 重要 作用 ， 硬 件 系 统 部 署 了 许多 级 

















别 的 指令 、 数 据 和 地 址 转换 缓存 ， 以 便 在 存在 此 类 局 部 性 
时 ， 能 帮助 程序 快速 运行 。 


当然 ， 通 党 所 说 的 局 部 性 原则 (principle of locality) 并 
不 是 硬性 规定 ， 所 有 的 程序 都 必须 遵守 。 事 实 上 ， 一 些 程 序 
以 相当 随机 的 方式 访问 内 存 (或 磁盘 ) ， 并 且 在 其 访问 序列 
中 不 显示 太 多 或 完全 没有 局 部 性 。 因 此 ， 尽 管 在 设计 任何 类 
型 的 缓存 (人 硬件 或 软件 ) 时 ， 局 部 性 都 是 一 件 好 事 ， 但 它 并 
不 能 保证 成 功 。 相 反 ， 它 是 一 种 经 常 证 明 在 计算 机 系统 设计 
中 有 用 的 启发 式 方法 。 














为 了 更 好 地 理解 LRU， 我 们 来 看 看 LRU 如 何在 示例 引用 序列 上 执行 。 表 
22. 4 展示 了 结果 。 从 表 中 ， 可 以 看 到 LRU 如 何 利 用 历史 记录 ， 比 无 状态 
策略 〈 如 随机 或 FIF0) 做 得 更 好 。 在 这 个 例子 中 ， 当 第 一 次 需要 替换 
页 时 ，LRU 会 跑 出 页 2， 因 为 0 和 1 的 访问 时 间 更 近 。 然 后 它 替 换 页 0， 
为 1 和 3 最 近 被 访问 过 。 在 这 两 种 情况 下 ， 基 于 历史 的 LRU 的 决定 证 明 是 
更 准确 的 ， 并 且 下 一 个 引用 也 是 命中 。 因 此 ， 在 我 们 的 简单 例子 中 ， 
LRU 的 表现 几乎 快要 赶 上 最 优 策略 了 121。 
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表 22. 4 追踪 LUR 策 略 
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我 们 也 应 该 注意 到 ， 与 这 些 算法 完全 相反 的 算法 也 是 存在 : 最 经 常 使 
用 策略 (Most- Frequently-Used，MFU) 和 最 近 使 用 策略 (Most- 
Recently-Used，MRU〉。 在 大 多 数 情况 下 不 是 全 部 ! ) ， 这 些 策 略 
效果 都 不 好 ， 因 为 它们 忽视 了 大 多 数 程序 都 具有 的 局 部 性 特点 。 


22.6 工作 负载 示例 


让 我 们 再 看 几 个 例子 ， 以 便 更 好 地 理解 这 些 策略 。 在 这 里 ， 我 们 将 查 
看 更 复杂 的 工作 负载 (workload) ， 而 不 是 追踪 小 例子 。 但 是 ， 这 些 
工作 负载 也 被 大 大 简化 了 。 更 好 的 研究 应 该 包含 应 用 程序 追踪 。 


第 一 个 工作 负载 没有 局 部 性 ， 这 意味 着 每 个 引用 都 是 访问 一 个 随机 
页 。 在 这 个 简单 的 例子 中 ， 工 作 负 载 每 次 访问 独立 的 100 个 页 ， 随 机 选 
择 下 一 个 要 引用 的 页 。 总 体 来 说 ， 访 问 了 10000 个 页 。 在 实验 中 ， 我 们 
将 缓存 大 小 从 非常 小 〈1 页 ) 变化 到 足以 容纳 所 有 页 100 页 ) ， 以 便 
了 解 每 个 策略 在 缓存 大 小 范围 内 的 表现 。 


图 22. 2 展示 了 最 优 、LRU、 随 机 和 FIF0 策 略 的 实验 结果 。 图 22.2 中 的 7 
轴 显 示 了 每 个 策略 的 命中 率 。 如 上 所 述 ，3 锅 表示 缓存 大 小 的 变化 。 





我 们 可 以 从 图 22. 2 中 得 出 一 些 结论 。 首 先 ， 当 工作 负载 不 存在 局 部 性 
时 ， 使 用 的 策略 区 别 不 大 。LRU、FIF0 和 随机 都 执行 相同 的 操作 ， 命 中 
率 完全 由 缓存 的 大 小 决定 。 其 次 ， 当 缓存 足够 大 到 可 以 容纳 所 有 的 数 
据 时 ， 使 用 哪 种 策略 也 无 关 紧要 ， 所 有 的 策略 (甚至 是 随机 的 ) 都 有 
100% 的 命中 率 。 最 后 ， 你 可 以 看 到 ， 最 优 策略 的 表现 明显 好 于 实际 的 
策略 。 如 果 有 可 能 的 话 ， 偷 颖 未 来 ， 就 能 做 到 更 好 的 替换 。 





100% 


S00 


0% 


命中 率 


40% 


2U% 


无 局 部 性 工作 负载 


40 60 
缓存 大 小 ( 块 数 ) 





80 


100 





图 22. 2 ”无 局 部 性 工作 负载 


我 们 下 一 个 工作 负载 就 是 所 谓 的 “80 一 20” 负 载 场景 ， 它 表现 出 局 部 
性 : 80% 的 引用 是 访问 20% 的 页 (“热门 ”页 ) 。 剩 下 的 20% 是 对 剩余 的 
80% 的 页 (“冷门 ”页 ) 访问 。 在 我 们 的 负载 场景 ， 总 共有 100 个 不 同 
的 页 。 因 此 ，“ 热 门 ” 页 是 大 部 分 时 间 访 问 的 页 ， 其 余 时 间 访 问 的 是 
“冷门 ”页 。 图 22. 3 展示 了 不 同 策略 在 这 个 工作 负载 下 的 表现 。 
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从 图 22. 3 中 可 以 看 出 ， 尽 管 随机 和 FIF0 都 很 好 地 运行 ， 但 LRU 更 好 ， 因 
为 它 更 可 能 保持 热门 页 。 由 于 这 些 页 面 过 去 经 党 被 提 及 ， 它 们 很 可 能 
在 不 久 的 将 来 再 次 被 提 及 。 优 化 再 次 表现 得 更 好 ， 表 明 LRU 的 历史 信息 


并 不 完美 。 


你 现在 可 能 会 想 : LRU 对 随机 和 FIF0 的 命中 率 提高 真 的 非常 重要 么 ? 如 
往常 一 样 ， 答 案 是 “ 视 情况 而 定 ”。 如 果 每 次 未 命中 代价 非常 大 (并 
不 罕见 ) ， 那 么 即使 小 幅 提 高 命中 率 〈 降 低 未 命中 率 ) 也 会 对 性 能 产 
和 
会 那么 。 


让 我 们 看 看 最 后 一 个 工作 负载 。 我 们 称 之 为 “循环 顺序 ”工作 负载 ， 
其 中 依次 引用 50 个 页 ， 从 0 开始 ， 然 后 是 1，…，49， 然 后 循环 ， 重 复 
访问 ， 总 共有 10000 次 访问 50 个 单独 页 。 图 22. 4 展示 了 这 个 工作 负载 下 
各 个 策略 的 行为 。 

















条 中 


100% 


8UM 


60% 


”40% 


20% 


循环 顺序 工作 负载 


四 


缓存 大 小 ( 块 数 ) 


图 22.4 循环 工作 负载 


这 种 工作 负载 在 许多 应 用 程序 (包括 重要 的 商业 应 用 ， 如 数据 库 
[CD85] ) 中 非常 常见 ， 展 示 了 LRU 或 者 FIF0 的 最 差 情况 。 这 些 算法 ， 在 
循环 顺序 的 工作 负载 下 ， 踢 出 较 旧 的 页 。 遗 憾 的 是 ， 由 于 工作 负载 的 
循环 性 质 ， 这 些 较 旧 的 页 将 比 因为 策略 决定 保存 在 缓存 中 的 页 更 早 被 
访问 。 事 实 上 ， 即 使 缓存 的 大 小 是 49 页 ，50 个 页 面 的 循环 连续 工作 负 
载 也 会 导致 0 的 命中 率 。 有 趣 的 是 ， 随 机 策略 明显 更 好 ， 虽 然 距离 最 
优 策略 还 有 上 距离， 但 至 少 达到 了 非 零 的 命中 率 。 可 以 看 出 随机 策略 有 
一 些 不 错 的 属性 ， 比 如 不 会 出 现 特殊 情况 下 奇怪 的 结果 。 




















22.7 实现 基于 历史 信息 的 算法 


正如 你 所 看 到 的 ， 像 LRU 这 样 的 算法 通常 优 于 简单 的 策略 (如 FIF0 或 随 
机 ) ， 它 们 可 能 会 踢 出 重要 的 页 。 遗 憾 的 是 ， 基 于 历史 信息 的 策略 带 
来 了 一 个 新 的 挑战 : 应 该 如 何 实现 呢 ? 


以 LRU 为 例 。 为 了 实现 它 ， 我 们 需要 做 很 多 工作 。 具 体 地 说 ， 在 每 次 页 
访问 〈 即 每 次 内 存 访 问 ， 不 管 是 取 指 令 还 是 加 载 指 令 还 是 存储 指令 ) 
时 ， 我 们 都 必 须 更 新 一 些 数据 ， 从 而 将 该 页 移动 到 列表 的 前 面 〈 即 MRU 
侧 ) 。 与 FIF0 相 比 ，FIF0 的 页 列表 仅 在 页 被 足 出 〈 通 过 移 除 最 先进 入 
的 页 ) 或 者 当 新 页 添加 到 列表 (已 到 列表 尾部 ) 时 才 被 访问 。 为 了 记 
录 哪 些 页 是 最 少 和 最 近 被 使 用 ， 系 统 必须 对 每 次 内 存 引 用 做 一 些 记录 
工作 。 显 然 ， 如 果 不 十 分 小 心 ， 这 样 的 记录 反而 会 极 大 地 影响 性 能 。 


有 一 种 方法 有 助 于 加 快速 度 ， 就 是 增加 一 点 硬件 文 持 。 例 如 ， 硬 件 可 
以 在 每 个 页 访问 时 更 新 内 存 中 的 时 间 字 段 〈 时 间 字 段 可 以 在 每 个 进程 
的 页 表 中 ， 或 者 在 内 存 的 茶 个 单独 的 数组 中 ， 每 个 物理 页 有 一 个 ) 。 
因此 ， 当 页 被 访问 时 ， 时 间 字 段 将 被 硬件 设置 为 当前 时 间 。 然 后 ， 在 
需要 蔡 换 页 时 ， 操 作 系 统 可 以 简单 地 扫描 系统 中 所 有 页 的 时 间 字 段 以 
找到 最 近 最 少 使 用 的 页 。 


遗憾 的 是 ， 随 着 系统 中 页 数量 的 增长 ， 扫 描 所 有 页 的 时 间 字 段 只 是 为 
了 找到 最 精确 最 少 使 用 的 页 ， 这 个 代价 太 昂 贯 。 想 象 一 下 一 全 拥有 4GB 
内 存 的 机 器 ， 内 存 切 成 长 B 的 页 。 这 人 台 机 器 有 一 百 万 页 ， 即 使 以 现代 




















CPU 速度 找到 LRU 页 也 将 需要 很 长 时 间 。 这 就 引出 了 一 个 问题 : 我 们 是 
否 真 的 需要 找到 绝对 最 旧 的 页 来 将 换 ? 找到 差不多 最 旧 的 页 可 以 吗 ? 








关键 问题 : 如 何 实现 LRU 蔡 换 策 略 


由 于 实现 完美 的 LRU 代 价 非 党 昂贵 ， 我 们 能 否 实现 一 个 近似 的 
LRU 算 法 ， 并 且 依 然 能 够 获得 预期 的 效果 ? 


22.8 近似 LRU 


事实 证 明 ， 答 案 是 肯定 的 : 从 计算 开销 的 角度 来 看 ， 近 似 LRU 更 为 可 
行 ， 实 际 上 这 也 是 许多 现代 系统 的 做 法 。 这 个 想法 需要 硬件 增加 一 个 
使 用 位 (use bit， 有 时 称 为 引用 位 ，reference bit) ， 这 种 做 法 在 
第 一 个 支持 分 页 的 系统 Atlas one-level store[KE + 62] 中 实现 。 系 
统 的 每 个 页 有 一 个 使 用 位 ， 然 后 这 些 使 用 位 存储 在 某 个 地 方 ( 例 如 ， 
它们 可 能 在 每 个 进程 的 页 表 中 ， 或 者 只 在 某 个 数组 中 ) 。 每 当 页 被 引 
用 即 读 或 写 ) 时 ， 硬 件 将 使 用 位 设置 为 1。 但 是 ， 硬 件 不 会 清除 该 位 
(即将 其 设置 为 0) ， 这 由 操作 系统 负责 。 


操作 系统 如 何 利 用 使 用 位 来 实现 近似 LRU? 可 以 有 很 多 方法 ， 有 一 个 简 
单 的 方法 称 作 时 钟 算法 (clock algorithm) [C69] 。 想 象 一 下 ， 系 统 
中 的 所 有 页 都 放 在 一 个 循环 列表 中 。 时 钟 指针 (clock hand) 开始 时 
指 癌 某 个 特定 的 页 《哪个 页 不 重要 ) 。 当 必须 进行 页 蔡 换 时 ， 操 作 系 
统 检查 当前 指向 的 页 的 使 用 位 是 1 还 是 0。 如 果 是 1， 则 意味 着 页 面 有 最 
近 被 使 用 ， 因 此 不 适合 被 蔡 换 。 然 后 ，Z 的 使 用 位 设置 为 0， 时 钟 指针 
递增 到 下 一 页 (P+ 1) 。 该 算法 一 直 持 续 到 找到 一 个 使 用 位 为 0 的 
页 ， 使 用 位 为 0 意味 着 这 个 页 最 近 没 有 被 使 用 过 【在 最 坏 的 情况 下 ， 所 
有 的 页 都 已 经 被 使 用 了 ， 那 么 束 将 所 有 页 的 使 用 位 都 设置 为 0 。 


请 注意 ， 这 种 方法 不 是 通过 使 用 位 来 实现 近似 LRU 的 唯一 方法 。 实 际 
上 上， 任何 周 期 性 地 清除 使 用 位 ， 然 后 通过 区 分 使 用 位 是 1 和 0 来 判 
定 该 蔡 换 哪个 页 的 方法 都 是 可 以 的 。Corbato 的 时 钟 算 法 只 是 一 个 早期 




















成 熟 的 算法 ， 并 且 具 有 不 重复 扫描 内 存 来 寻找 未 使 用 页 的 特点 ， 也 赖 
古 它 在 最 差 情 况 下 ， 只 会 般 历 一 次 所 有 内 存 。 


图 22. 5 展示 了 时 钟 算法 的 一 个 变种 的 行为 。 该 变种 在 需要 进行 页 蔡 换 
时 随机 扫描 各 页 ， 如 果 遇 到 一 个 页 的 引用 位 为 1， 就 清除 该 位 〈 即 将 它 
设置 为 0) 。 直 到 找到 一 个 使 用 位 为 0 的 页 ， 将 这 个 页 进行 蔡 换 。 如 你 
J 0 但 它 比 不 考虑 历史 访问 的 
方法 要 好 。 
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22.9 考虑 脏 页 


时 钟 算法 的 一 个 小 修改 (最 初 也 由 Corbato [C69] 提 出 ) ， 是 对 内 存 中 
的 页 是 否 被 修改 的 额外 考虑 。 这 样 做 的 原因 是 : 如 果 页 已 被 修改 
Cnodified) 并 因此 变 脏 (dirty) ， 则 中 出 它 就 必须 将 它 写 回 磁盘 ， 
这 很 昂贵 。 如 果 它 没有 被 修改 (因此 是 干净 的 ，clean) ， 踢 出 就 没 成 
本 。 物 理 帧 可 以 简单 地 重用 于 其 他 目的 而 无 须 额外 的 I/0。 因 此 ， 一 些 
虚拟 机 系统 更 倾向 于 踢 出 干净 页 ， 而 不 是 脏 页 。 


为 了 支持 这 种 行为 ， 硬 件 应 该 包括 一 个 修改 位 (modified bit， 叉 名 
脏 位 ，dirty bit) 。 每 次 写 入 页 时 都 会 设置 此 位 ， 因 此 可 以 将 其 合 3 
到 页 面 蔡 换 算法 中 。 例 如 ， 时 钟 算法 可 以 被 改变 ， 以 扫描 既 未 使 用 又 
十 津 的 页 先 跑 出 。 无 法 找到 这 种 页 时 ， 再 查找 脏 的 未 使 用 页 面 ， 等 














22. 10 其 他 虚拟 内 存 集 略 





页 面 蔡 换 不 是 虚拟 内 存 子 系统 采用 的 唯一 策略 (尽管 它 可 能 是 最 重要 
的 ) 。 例 如 ， 操 作 系 统 还 必须 决定 何 时 将 页 载 入 内 存 。 该 策略 有 时 称 
为 页 选择 (page selection) 策略 (因为 Denning 这 样 命名 [D70] ) ， 
它 问 操作 系统 提供 了 一 些 不 同 的 选项 。 


对 于 大 多 数 页 而 言 ， 操 作 系统 只 是 使 用 按 需 分 页 (demand paging) ， 
这 意味 着 操作 系统 在 页 被 访问 时 将 页 载 入 内 存 中 ，“ 按 需 ” 即 可 。 当 
然 ， 操 作 系统 可 能 会 猜测 一 个 页 面 即将 被 使 用 ， 从 而 提前 载 入 。 这 种 
行为 被 称 为 预 取 (prefetching) ， 只 有 在 有 合理 的 成 功 机 会 时 才 应 该 
这 样 做 。 例 如 ， 一 些 系 统 将 假设 如 果 代码 页 / 呈 载 入 内 存 ， 那 么 代码 页 
P+ 1 很 可 能 很 快 被 访问 ， 因 此 也 应 该 被 载 入 内 存 。 


另 一 个 策略 决定 了 操作 系统 如 何 将 页 面 写 入 磁盘 。 当 然 ， 它 们 可 以 简 
单 地 一 次 写 出 一 个 。 然 而 ， 许 多 系统 会 在 内 存 中 收集 一 些 待 完成 写 


入 ， 并 以 一 种 (更 高 效 ) 的 写 入 方式 将 它们 写 入 人 硬盘。 这 种 行为 通常 
称 为 聚集 (clustering) 写 入 ， 或 者 就 是 分 组 写 入 (grouping) ， 这 
样 做 有 效 是 因为 硬盘 驱动 器 的 性 质 ， 执 行 单 次 大 的 写 操作 ， 比 许多 小 
的 写 操作 更 有 效 。 





22. 11 抖动 


在 结束 之 前 ， 我 们 解决 了 最 后 一 个 问题 ， 当 内 存 束 是 被 超额 请 求 时 ， 
操作 系统 应 该 做 什么 ， 这 组 正在 运行 的 进程 的 内 存 需 求 是 否 超 出 了 可 
用 物理 内 存 ? 在 这 种 情况 下 ， 系 统 将 不 断 地 进行 换 页 ， 这 种 情况 有 时 
被 称 为 抖动 (thrashing) [D70j]。 


一 些 早期 的 操作 系统 有 一 组 相当 复杂 的 机 制 ， 以 便 在 抖动 发 生 时 检测 
并 应 对 。 例 如 ， 给 定 一 组 进程 ， 系 统 可 以 决定 不 运行 部 分 进程 ， 和 希望 
减少 的 进程 工作 集 ( 它 们 活跃 使 用 的 页 面 ) 能 放 入 内 存 ， 从 而 能 够 取 
得 进展 。 这 种 方法 通常 被 称 为 准 入 控制 (admission control) ， 它 表 
明 ， 少 做 工作 有 时 比 尝 试 一 下 子 做 好 所 有 事情 更 好 ， 这 是 我 们 在 现实 
生活 中 以 及 在 现代 计算 机 系统 中 经 常 遇 到 的 情况 ( 令 人 遗憾 ) 。 


目前 的 一 些 系 统 采用 更 严格 的 方法 处 理 内 存 过 载 。 例 如 ， 当 内 存 超额 
请 求 时 ， 某 些 版 本 的 Linux 会 运行 “内 存 不 足 的 杀手 程序 (out-of- 
memory killer) ”。 这 个 守护 进程 选择 一 个 内 存 密集 型 进程 并 杀 死 
它 ， 从 而 以 不 怎么 委婉 的 方式 减少 内 存 。 虽 然 成 功 地 减轻 了 内 存 压 
力 ， 但 这 种 方法 可 能 会 遇 到 问题 ， 例 如 ， 如 果 它 杀 死 {服务 器 ， 就 会 导 
致 所 有 需要 显示 的 应 用 程序 不 可 用 。 





22. 12 小 绪 


我 们 已 经 看 到 了 许多 页 蔡 换 〈 和 其 他 ) 策略 的 介绍 ， 这 些 策略 是 所 有 
现代 操作 系统 中 虚拟 内 存 子 系统 的 一 部 分 。 现 代 系 统 增加 了 对 时 钟 等 
简单 LRU 近 似 值 的 一 些 调整 。 例 如 ， 扫 描 抗 性 〈scan resistance) 是 
许多 现代 算法 的 重要 组 成 部 分 ， 如 ARC [MM03] 。 扫 描 抗 性 算法 通常 是 


类 似 LRU 的 ， 但 也 试图 避免 LRU 的 最 坏 情 况 行为 ， 我 们 曾 在 循环 顺序 工 
作 负 载 中 看 到 这 种 情况 。 因 此 ， 页 替换 算法 的 发 展 仍 在 继续 。 


然而 ， 在 许多 情况 下 ， 由 于 内 存 访 问 和 磁盘 访问 时 间 之 间 的 差异 增 
加 ， 这 些 算法 的 重要 性 降低 了 。 由 于 分 页 到 硬盘 非常 昂贵 ， 因 此 频繁 
分 页 的 成 本 太 高 。 所 以 ， 过 度 分 页 的 最 佳 解决 方案 往往 很 简单 : 购买 
更 多 的 内 存 。 
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现 ， 因 此 这 两 位 有 梦想 的 科学 家 都 丧失 了 和 名誉 《〈 当 然 也 受到 了 嘲 
笑 ) 。 唯 一 真正 为 这 个 结果 感到 高 兴 的 人 是 Marvin Hawkins， 尽 管 他 
参与 了 这 项 工作 ， 但 他 的 名 字 却 从 本 文中 被 删除 了 。 他 因而 避免 将 他 
的 名 字 与 20 世 纪 最 大 的 科学 失误 之 一 联系 起 来 。 


[HPO6] “Computer Architecture: A Quantitative Approach” John 
Hennessy and David Patterson 


Morgan-~Kaufmann, 2006 
一 本 关于 计算 机 体系 结构 的 了 不 起 而 奇妙 的 书 ， 必 读 ! 


[IH87] “Aspects of Cache Memory and Instruction Buffer 
Performance” Mark D. Hill 


Ph.D. Dissertation, U.C. Berkeley, 1987 

Mark Hill 在 其 论文 工作 中 介绍 了 3C， 后 来 因 其 被 包含 在 H&P [HP06] 中 
而 广泛 流行 。 其 中 的 引述 : “我 发 现 根据 未 命中 的 原因 直观 地 将 未 命 
中 划分 为 3 个 部 分 是 有 用 的 (第 49 页 ) 。” 


[KE+62] “One-level Storage System” 





T. Kilburn, and D.B.G. Edwards and M.J. Lanigan and PF.H. 
Sumner [RE Trans. EC-11:2, 1962 


虽然 Atlas 有 一 个 使 用 位 ， 但 它 只 有 很 少量 的 页 ， 因 此 在 大 型 存储 器 中 
使 用 位 的 扫描 并 不 是 作者 解决 的 问题 。 








[M+70] “Evaluation Techniques for Storage Hierarchies” 


R. L. Mattson, J. Gecsei, D. R. Slutz, I. L. Traiger IBM 
Systems Journal, Volume 9:2，1970 


一 篇 主要 关于 如 何 高 效 地 模拟 缓存 层次 结构 的 论文 。 本 文 无 疑 是 这 
面 的 经 典 之 作 ， 还 有 对 各 种 蔡 代 算 法 的 一 些 特性 的 极 佳 讨 论 。 你 能 
清楚 为 什么 栈 属性 可 能 对 同时 模拟 很 多 不 同 大 小 的 缓存 有 用 吗 ? 





洒 
= 
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[MMO3] “ARC: A Self-Tuning, Low Overhead Replacement Cache” 
Nimrod Megiddo and Dharmendra S. Modha 


FAST 2003，February 2003,，San Jose, California 


关于 替换 算法 的 优秀 现代 论文 ， 其 中 包括 现在 某 些 系统 中 使 用 的 新 策 
略 ARC。 在 2014 年 FAST ”14 大 会 上 ， 获 得 了 存储 系统 社区 的 “时 间 考 


验 ” 奖 。 
作业 


这 个 模拟 器 paging-policy. py 允许 你 使 用 不 同 的 页 蔡 换 策略 。 详 情 请 
参阅 README 文 件 。 


问题 


1. 使 用 以 下 参数 生成 随机 地 址 : -s 0 -na 10，-s 1 -n 10 和 -s 2 -n 
10。 将 策略 从 FIF0 更 改 为 LRU， 并 将 其 更 改 为 OPT。 计 算 所 述 地 址 追踪 
中 的 每 个 访问 是 否 命 中 或 未 命中 。 


2. 对 于 大 小 为 5 的 高 速 缓存 ， 为 以 下 每 个 策略 生成 最 差 情 况 的 地 址 引 
用 序列 : FIF0、LRU 和 NMRU“〈 最 差 情 况 下 的 引用 序列 导致 尽 可 能 多 的 未 
命中 ) 。 对 于 最 差 情 况 下 的 引用 序列 ， 需 要 的 缓存 增 大 多 少 ， 才 能 

幅 提高 性 能 ， 并 接近 0PT? 

3. 生成 一 个 随机 追踪 序列 (使 用 Python 或 Perl1) 。 你 预计 不 同 的 策略 
在 这 样 的 追踪 序列 上 的 表现 如 何 ? 


4. 现在 生成 一 些 局 部 性 追踪 序列 。 如 何 能 够 产生 这 样 的 追踪 序列 ? 
LRU 表 现 如 何 ? RAND 比 LRU 好 多 少 ? CLOCK 表现 如 何 ? CLOCK 使 用 不 同 数 
量 的 时 钟 位 ， 表 现 如 何 ? 




















5. 使 用 像 valgrind 这 样 的 程序 来 测试 真实 应 用 程序 并 生成 虚拟 页 面 引 
用 序列 。 人 例如， 运行 valgrind --tool = lackey --trace-mem = yes 
1s 将 为 程序 1s 所 做 的 每 个 指令 和 数据 引用 ， 输 出 近乎 完整 的 引用 追 
踪 。 为 了 使 上 述 仿 真 器 有 用 ， 你 必须 首先 将 每 个 虚拟 内 存 引 用 转换 为 
虚拟 页 码 参 考 (通过 屏蔽 偏 移 量 并 癌 右 移 位 来 完成 )。 为 了 满足 大 部 
分 请 求 ， 你 的 应 用 程序 追踪 需要 多 大 的 绥 存 ? 随 着 缓存 大 小 的 增加 绘 
制 其 工作 集 的 图 形 。 











[1]， 如 果 你 可 以 ， 请 告诉 我 们 ， 我 们 可 以 一 起 发财 ， 或者， 像 “发 
现 ” 冷 肾 变 的 科学 家 一 样 ， 被 众人 所 讽刺 和 咽 笑 [FP89]。 


[2 好 吧 ， 我 们 夸大 了 结果 。 但 有 时 候 为 了 证 明 一 个 观点 ， 夺 大 是 有 


第 23 章 VAX/VMS 虚 拟 内 存 系 统 


在 我 们 结束 对 虚拟 内 存 的 研究 之 前 ， 让 我 们 仔细 研究 一 下 VAX/VMS 操 作 
系统 [LL82] 的 虚拟 内 存 管理 器 ， 它 特别 干净 漂亮 。 本 章 将 讨论 该 系 
统 ， 说 明 如 何在 一 个 完整 的 内 存 管理 器 中 ， 将 先前 章节 中 提出 的 一 些 
概念 结合 在 一 起 。 





23.1 背景 


数字 设备 公司 (DEC) 在 20 世 纪 70 年 代 末 推出 了 VAX-11 小 型 机 体系 结 
构 。 在 微型 计算 机 时 代 ，DEC 是 计算 机 行业 的 一 个 大 玩家 。 遗 憾 的 是 ， 
一 系列 糟糕 的 决定 和 个 人 计算 机 的 出 现 慢 慢 (但 不 可 避免 地 〉 导致 该 
2 闭 [C03] 。 该 架构 有 许多 实现 ， 包 括 VAX-11/780 和 功能 较 弱 
JVAX-11/750。 


该 系统 的 操作 系统 被 称 为 VAX/VMS (或 者 简单 的 VMS)， ， 其 主要 架构 师 
之 一 是 Dave Cutler， 他 后 来 领导 开发 了 微软 Windows NT [C93] 。VMS 
面临 通用 性 的 问题 ， 即 它 将 运行 在 各 种 机 器 上 ， 包 括 非 常 便宜 的 
VAXen (是 的 ， 这 是 正确 的 复数 形式 ) ， 以 及 同一 架构 系列 中 极 高 端 和 
强大 的 机 器 。 因 此 ， 操 作 系 统 必须 具有 一 些 机 制 和 策略 ， 适 用 于 这 一 
系列 广泛 的 系统 (并 且 运 行 良 好 ) 。 











关键 问题 : 如 何 避 免 通 用 性 “ 魔 玫 ” 


操作 系统 常常 有 所 谓 的 “通用 性 魔 咒 ”问题 ， 它 们 的 任务 是 
为 广泛 的 应 用 程序 和 系统 提供 一 般 支 持 。 其 根本 结果 是 操作 
系统 不 太 可 能 很 好 地 支持 任何 一 个 安装 。VAX-11 体 系 结构 有 
许多 不 同 的 实现 。 那 么 ， 如 何 构建 操作 系统 以 便 在 各 种 系统 
上 有 效 运行 ? 





附带 次 一 名，VMS 是 软件 创新 的 很 好 例子 ， 用 于 隐藏 架构 的 一 些 回 有 人 缺 
陷 。 尽 管 操 作 系统 通 音 依靠 硬件 来 构建 高 效 的 抽象 和 假象 ， 但 有 时 人 硬 
件 设计 人 员 并 没有 把 所 有 事情 都 做 好 。 在 VAX 硬 件 中 ， 我 们 会 看 到 一 些 
例子 ， 也 会 看 到 尽管 存在 这 些 硬件 缺陷 ，VMS 操 作 系 统 如 何 构建 一 个 有 
效 的 工作 系统 。 


23.2 内 存 管理 硬件 


VAX-11 为 每 个 进程 提供 了 一 个 32 位 的 虚拟 地 址 空间 ， 分 为 512 字 节 的 
页 。 因 此 ， 虚 拟 地 址 由 23 位 VPN 和 9 位 偏 移 组 成 。 此 外 ，VPN 的 高 两 位 用 
于 区 分 页 所 在 的 段 。 因 此 ， 如 前 所 述 ， 该 系统 是 分 页 和 分 段 的 混合 
体 。 


地 址 空间 的 下 半 部 分 称 为 “进程 空间 ”， 对 于 每 个 进程 都 是 唯一 的 。 
在 进程 空间 的 前 半 部 分 〈 称 为 Po) 中 ， 有 用 户 程序 和 一 个 向 下 增长 的 
堆 。 在 进程 空间 的 后 半 部 分 (P1) ， 有 向 上 增长 的 栈 。 地 址 空间 的 上 
半 部 分 称 为 系统 空间 〈S) ， 尽 管 只 有 一 半 被 使 用 。 受 保护 的 操作 系统 
代码 和 数据 驻 留 在 此 处 ， 操 作 系统 以 这 种 方式 跨 进程 共享 。 


VMS 设 计 人 员 的 一 个 主要 关注 点 是 VAX 硬 件 中 的 页 大 小 非常 小 〈512 字 
节 ) 。 由 于 历史 原因 选择 的 这 种 尺寸 ， 存 在 一 个 根本 性 问题 ， 即 简单 
的 线性 页 表 过 大 。 因 此 ，VMS 设 计 人 员 的 首要 目标 之 一 是 确保 VMS 不 会 
用 页 表 占 满 内 存 。 


系统 通过 两 种 方式 ， 减 少 了 页 表 对 内 存 的 压力 。 首 先 ， 通 过 将 用 户 地 
址 空间 分 成 两 部 分 ，VAX-11 为 每 个 进程 的 每 个 区 域 (PO 和 Pl1) 提供 了 
一 个 页 表 。 因 此 ， 栈 和 堆 之 间 未 使 用 的 地 址 空间 部 分 不 需要 页 表 空 
间 。 基 址 和 界限 寄存 器 的 使 用 与 你 期 望 的 一 样 。 一 个 基 址 寄存 器 保存 
该 段 的 页 表 的 地 址 ， 界 限 寄存 器 保存 其 大 小 《〈 即 页 表 项 的 数量 ) 。 


其 次 ， 通 过 在 内 核 虚 拟 内 存 中 放置 用 户 页 表 〈 对 于 P0 和 P1， 因 此 每 个 
进程 两 个 ) ， 操 作 系 统 进一步 降低 了 内 存 压 力 。 因 此 ， 在 分 配 或 增长 
页 表 时 ， 内 核 在 段 y 中 分 配 上 自己 的 虚拟 内 存 空间 。 如 果 内 存 受到 严重 压 
en 
于 其 他 用 途 。 























将 页 表 放 入 内 核 虚 拟 内 存 意味 着 地 址 转换 更 加 复杂 。 例 如 ， 要 转换 P0 
或 Pl 中 的 虚拟 地 址 ， 硬 件 必须 首先 尝试 在 其 页 表 中 查找 该 页 的 页 表 项 
《该 进程 的 P0 或 P1 页 表 ) 。 但 是 ， 在 这 样 做 时 ， 硬 件 可 能 首先 需要 但 
疝 系 统 页 表 〈 它 存在 于 物理 内 存 中 ) 。 随 着 地 址 转换 完成 ， 硬 件 可 以 
知道 页 表 页 的 地 址 ， 然 后 最 终 知道 所 需 内 存 访 问 的 地 址 。 幸 运 的 是 ， 
VAX 的 硬件 管理 的 TLB 让 所 有 这 些 工作 更 快 ，TLB 通 常 (很 有 可 能 ) 会 绕 
过 这 种 费力 的 查找 。 











23. 3 一 个 真实 的 地 址 空间 


研究 VMS 有 一 个 很 好 的 方面 ， 我 们 可 以 看 到 如 何 构建 一 个 真正 的 地 址 空 
间 《〈 见 图 23.1) 。 到 目前 为 止 ， 我 们 一 直 假 设 了 一 个 简单 的 地 址 衬 
间 ， 只 有 用 户 代 码 、 用 户 数据 和 用 户 推 ， 但 正如 我 们 上 面 所 看 到 的 ， 
真正 的 地 址 空间 显然 更 复杂 。 





补充 : 为 什么 空 指针 访问 会 导致 段 错误 


你 现在 应 该 很 好 地 理解 一 个 空 指针 引用 会 发 生 什 么 。 通 过 这 
样 做 ， 进 程 生成 了 一 个 虚拟 地 址 0: 


int xp = NULL; // set p= 0 
xp = 10; // try to store value 10 to virtual address 0 


硬件 试图 在 TLB 中 查找 VPN (这 里 也 是 0) ， 遇 到 TLB 未 命中 。 
查询 页 表 ， 并 且 发 现 VPN 0 的 条 目 被 标记 为 无 效 。 因 此 ， 我 们 
遇 到 无 效 的 访问 ， 将 控制 权 交 给 操作 系统 ， 这 可 能 会 终止 进 
程 〈 在 UNIX 系 统 上 ， 会 向 进程 发 出 一 个 信号 ， 让 它们 对 这 样 
的 错误 做 出 反应 。 但 是 如 果 信 号 未 被 捕获 ， 则 会 终止 进 





程 ) 





例如 ， 代 码 段 永远 不 会 从 第 0 页 开始 。 相 反 ， 该 页 被 标记 为 不 可 访问 ， 
以 便 为 检测 空 指 针 (null-pointer) 访问 提供 一 些 文 持 。 因 此 ， 设 计 


地 址 空间 时 需要 考虑 的 一 个 问题 是 对 调试 的 文 持 ， 这 正 是 无 法 访问 的 
零 页 所 提供 的 。 


页 口 : 


用 户 代 码 





| 7 Fi (ro) 
0 
用 户 (P1) 
2 
系统 (S) 


图 23. 1 VAX / VMS 地 址 空间 


也 许 更 重要 的 是 ， 内 核 虚 拟 地 址 空间 《 即 其 数据 结构 和 代码 ) 是 每 个 
用 户 地 址 空间 的 一 部 分 。 在 上 下 文 切换 时 ， 操 作 系统 改变 P0 和 PI1 寄 存 
器 以 指 癌 即将 运行 的 进程 的 适当 页 表 。 但 是 ， 它 不 会 更 改 $ 基 址 和 界限 
寄存 器 ， 并 因此 将 “相同 的 ”内 核 结构 映射 到 每 个 用 户 的 地 址 空间 。 


内 核 映 射 到 每 个 地 址 空间 ， 这 有 一 些 原 因 。 这 种 结构 使 得 内 核 的 运转 
更 轻松 。 例 如 ， 如 果 操 作 系统 收 到 用 户 程 序 〈 例 如 ， 在 write() 系 统 调 
用 中 ) 递交 的 指针 ， 很 容易 将 数据 从 该 指针 处 复制 到 它 自己 的 结构 。 
操作 系统 自然 是 写 好 和 编译 好 的 ， 无 须 担 心 它 访问 的 数据 来 自 哪里 。 
相反 ， 如 果 内 核 完 全 位 于 物理 内 存 中 ， 那 么 将 页 表 的 交换 页 切换 到 磁 
盘 是 非常 困难 的 。 如 果 内 核 被 赋予 了 自己 的 地 址 空间 ， 那 么 在 用 户 应 
用 程序 和 内 核 之 间 移 动 数据 将 再 次 变 得 复杂 和 痛 舌 。 通 过 这 种 构造 
ee 























关于 这 个 地 址 空间 的 最 后 一 点 与 保护 有 关 。 显 然 ， 操 作 系 统 不 希望 用 
望 应 用 程序 读 取 或 写 入 操作 系统 数据 或 代码 。 因 此 ， 硬 件 必须 支持 页 
面 的 不 同 保护 级 别 才能 启用 该 功能 。VAX 通 过 在 页 表 中 的 保护 位 中 指定 
CPU 访问 特定 页 面 所 需 的 特权 级 别 来 实现 此 目的 。 因 此 ， 系 统 数据 和 代 
码 被 设置 为 比 用 户 数据 和 代码 更 高 的 保护 级 别 。 试 图 从 用 户 代码 访问 
这 些 信息 ， 将 会 在 操作 系统 中 产生 一 个 陷阱 ， 并 且 《 你 猜 对 了 ) 可 能 
会 终止 违规 进程 。 


23.4 页 替换 


VAX 中 的 页 表 项 (PTE) 包含 以 下 位 : 一 个 有 效 位 ， 一 个 保护 字段 〈4 
位 ) ， 一 个 修改 〈 或 胜 位 ) 位 ， 为 0$S 使 用 保留 的 字段 (5 位 ) ， 最 后 是 
一 个 物理 帧 号 码 (PFN) 将 页 面 的 位 置 存储 在 物理 内 存 中 。 敏 锐 的 读者 
可 能 会 注意 到 : 没有 引用 位 (no reference bit) ! 因此 ，VMS 蔡 换算 
法 必须 在 没有 硬件 支持 的 情况 下 ， 确 定 哪 些 页 是 活跃 的 。 


开发 人 员 也 担心 会 有 “自私 贪 禁 的 内 存 ” (memory hog) 一 一 一 些 程 
序 占用 大 量 内 存 ， 使 其 他 程序 难以 运行 。 到 目前 为 止 ， 我们 所 看 到 的 








大 部 分 策略 都 容易 受到 这 种 内 存 的 影响 。 例 如 ，LRU 是 一 种 全 局 策略 ， 
不 会 在 进程 之 间 公平 分 享 内 存 。 


分 段 的 FIF0 


为 了 解决 这 两 个 问题 ， 开 发 人 员 提 出 了 分 段 的 FIFO ( segmented 
FIF0) 奉 换 策 略 [RL81] 。 想 法 很 简单 : 每 个 进程 都 有 一 个 可 以 保存 在 
内 存 中 的 最 大 页 数 ， 称 为 驻 留 集 大 小 (Resident Set Size，RSS) 。 
每 个 页 都 保存 在 FIF0 列 表 中 。 当 一 个 进程 超过 其 RSS 时 ，“ 先 入 ”的 页 
被 驱逐 。FIF0 显 然 不 需要 硬件 的 任何 支持 ， 因 此 很 容易 实现 。 


正如 我 们 前 面 看 到 的 ， 纯 粹 的 FIF0 并 不 是 特别 好 。 为 了 提高 FIF0 的 性 
能 ，VMS 引 入 了 两 个 二 次 机 会 列表 (second-chance list) ， 页 在 从 内 
存 中 被 踢 出 之 前 被 放 在 其 中 。 有 具体 来 说 ， 是 全 局 的 干净 页 空闲 列表 和 
脏 页 列表 。 当 进程 P 超 过 其 RSS 时 ， 将 从 其 每 个 进程 的 FIF0 中 移 除 一 个 
页 。 如 果 干 净 (未 修改 ) ， 则 将 其 放 在 干净 页 列表 的 末尾 。 如 果 脏 
(已 修改 ) ， 则 将 其 放 在 脏 页 列表 的 末尾 。 


如 果 另 一 个 进程 需要 一 个 空闲 页 ， 它 会 从 全 局 干净 列表 中 取出 第 一 个 
空 亲 页。 但是， 如 果 原 来 的 进程 P 在 回收 之 前 在 该 页 上 出 现 页 错误 ， 则 
P 会 从 空闲 《或 胜 ) 列表 中 回收 ， 从 而 避免 昂贵 的 磁盘 访问 。 这 些 全 局 
二 次 机 会 列表 越 大 ， 分 段 的 FIF0 算 法 越 接近 LRU [RL81]。 




















页 聚集 


VMS 采 用 的 男 一 个 优化 也 有 助 于 克服 VMS 中 的 小 页 面 问 题 。 具 体 来 说 ， 
对 于 这 样 的 小 页 面 ， 交 换 过 程 中 的 硬盘 1/0 可 能 效率 非常 低 ， 因 为 硬盘 
在 大 型 传输 中 效果 更 好 。 为 了 让 交换 1/0 更 有 效 ，VMS 增 加 了 一 些 优 
化 ， 但 最 重要 的 是 聚集 (clustering) 。 通 过 聚集 ，VMS 将 大 批量 的 页 
从 全 局 脏 列表 中 分 组 到 一 起 ， 并 将 它们 一 举 写 入 磁盘 〈 从 而 使 它们 变 
干净) 。 聚 集 用 于 大 多 数 现代 系统 ， 因 为 可 以 在 交换 空间 的 任意 位 置 








人 
性 能 。 


补充 : 模拟 引用 位 


事实 证 明 ， 你 不 需要 硬件 引用 位 ， 就 可 以 了 解 系统 中 哪些 页 
在 用 。 事 实 上， 在 20 世 纪 80 年 代 早 期 ，Babaoglu 和 ,Joy 表明 ， 
VAX 上 的 保护 位 可 以 用 来 模拟 引用 位 [BJ81]j 。 其 基本 思路 是 : 
如 果 你 想 了 解 哪些 页 在 系统 中 被 活跃 使 用 ， 请 将 页 表 中 的 所 
有 页 标记 为 不 可 访问 (但 请 注意 关于 哪些 页 可 以 被 进程 真正 
访问 的 信息 ， 也 许 在 页 表 项 的 “保留 的 操作 系统 字段 ”部 
分 ) 。 当 一 个 进程 访问 一 页 时 ， 它 会 在 操作 系统 中 产生 一 个 
陷阱 。 操 作 系 统 将 检查 页 是 否 真 的 可 以 访问 ， 如 果 是 ， 则 将 
该 页 恢复 为 正常 保护 (例如 ， 只 读 或 读 写 ) 。 在 替换 时 ， 操 
作 系 统 可 以 检查 哪些 页 仍然 标记 为 不 可 用 ， 从 而 了 解 哪些 页 
最 近 没 有 被 使 用 过 。 


这 种 引用 位 “模拟 ”的 关键 是 减少 开销 ， 同 时 仍 能 很 好 地 了 
解 页 的 使 用 。 标 记 页 不 可 访问 时 ， 操 作 系 统 不 应 太 激 进 ， 否 
则 开销 会 过 高 。 同 时 ， 操 作 系统 也 不 能 太 被 动 ， 否 则 所 有 页 
面 都 会 被 引用 ， 操 作 系 统 又 无 法 知道 踢 出 哪 一 页 。 























23.5 其 他 漂亮 的 虚拟 内 存 技巧 


VMS 有 另外 两 个 现在 成 为 标准 的 技巧 : 按 需 置 零 和 写 入 时 复制 。 我 们 现 
在 描述 这 些 惰性 〈lazy) 优化 。 


VMS (以 及 大 多 数 现代 系统 ) 中 的 一 种 懒惰 形式 是 页 的 按 需 置 零 
Cdemand zeroing) 。 为 了 更 好 地 理解 这 一 点 ， 我 们 来 考虑 一 下 在 你 
的 地 址 空间 中 添加 一 个 页 的 例子 。 在 一 个 初级 实现 中 ， 操 作 系统 响应 
一 个 请 求 ， 在 物理 内 存 中 找到 页 ， 将 该 页 添加 到 你 的 堆 中 ， 并 将 其 置 
零 (安全 起 见 ， 这 是 必需 的 。 否 则 ， 你 可 以 看 到 其 他 进程 使 用 该 页 时 


的 内 容 。) ， 然 后 将 其 映射 到 你 的 地 址 空间 《设置 页 表 以 根据 需要 引 
人 
程 使 用 。 


利用 按 需 置 零 ， 当 页 添加 到 你 的 地 址 空间 时 ， 操 作 系 统 的 工作 很 少 。 
它 会 在 页 表 中 放 入 一 个 标记 页 不 可 访问 的 条 目 。 如 果 进 程 读 取 或 写 入 
页 ， 则 会 向 操作 系统 发 送 陷 阱 。 在 处 理 陷阱 时 ， 操 作 系 统 注意 到 ( 通 
常 通过 页 表 项 中 “保留 的 操作 系统 字段 ”部 分 标记 的 一 些 位 ) ， 这 实 
际 上 是 一 个 按 需 置 零 页 。 此 时 ， 操 作 系 统 会 完成 寻找 物理 页 的 必要 工 
作 ， 将 它 置 零 ， 并 映射 到 进程 的 地 址 空间 。 如 果 该 进程 从 不 访问 该 
页 ， 则 所 有 这 些 工 作 都 可 以 避免 ， 从 而 体现 按 需 置 零 的 好 处 。 














提示 : 惰性 


惰性 可 以 使 得 工作 推迟 ， 但 出 于 多 种 原因 ， 这 在 操作 系统 中 
是 有 益 的 。 首 先 ， 推 迟 工 作 可 能 会 减少 当前 操作 的 延 人 运 ， 从 
而 提高 啊 应 能 力 。 例 如 ， 操 作 系统 通 音 会 报告 立即 写 入 文件 
成 功 ， 只 是 稍 后 在 后 台 将 其 写 入 硬盘 。 其 次 ， 更 重要 的 是 ， 
惰性 有 时 会 完全 避免 完成 这 项 工作 。 例 如 ， 延 迟 写 入 直到 文 
件 被 删除 ， 根 本 不 需要 写 入 。 














VMS 有 男 一 个 很 酪 的 优化 (几乎 每 个 现代 操作 系统 都 是 这 样 )， 写 时 复 
制 (copy-on-write，COW) 。 这 个 想法 至 少 可 以 回溯 到 TENEX 操 作 系 统 
[BB+72] ， 它 很 简单 : 如 果 操 作 系 统 需要 将 一 个 页 面 从 一 个 地 址 空间 复 
制 到 男 一 个 地 址 空间 ， 不 是 实际 复制 它 ， 而 是 将 其 映射 到 目标 地 址 空 
间 ， 并 在 两 个 地 址 空间 中 将 其 标记 为 只 读 。 如 果 两 个 地 址 空间 都 只 读 
取 页 面 ， 则 不 会 采取 进一步 的 操作 ， 因 此 操作 系统 已 经 实现 了 快速 复 
制 而 不 实际 移动 任何 数据 。 


但 是 ， 如 果 其 中 一 个 地 址 空间 确实 尝试 写 入 页 面 ， 就 会 陷入 操作 系 
统 。 操 作 系 统 会 注意 到 该 页 面 是 一 个 COW 页 面 ， 因 此 《惰性 地 ) 分 配 一 
个 新 页 ， 填 充 数据 ， 并 将 这 个 新 页 映射 到 错误 处 理 的 地 址 空间 。 该 进 
旦 然后 继续 ， 现 在 有 了 该 页 的 私人 副本 。 




















COW 有 用 有 一 些 原 因 。 当 然 ， 任 何 类 型 的 共享 库 都 可 以 通过 写 时 复制 ， 
映射 到 许多 进程 的 地 址 空间 中 ， 从 而 节省 宝 叶 的 内 存 空间 。 在 UNIX 系 
统 中 ， 由 于 fork 0 和 exec () 的 语义 ，COW 更 加 关键 。 你 可 能 还 记得 ， 
fork () 会 创建 调用 者 地 址 空间 的 精确 副本 。 对 于 大 的 地 址 空间 ， 这 样 
的 复制 过 程 很 慢 ， 并 且 是 数据 密集 的 。 更 糟 料 的 是 ， 大 部 分 地 址 空间 
会 被 随后 的 exec (0 调用 立即 覆盖 ， 它 用 即将 执行 的 程序 覆盖 调用 进程 
的 地 址 空间 。 通 过 改 为 执行 写 时 复制 的 fork() ， 操 作 系统 避免 了 大 量 
不 必要 的 复制 ， 从 而 保留 了 正确 的 语义 ， 同 时 提高 了 性 能 。 








23.6 小 结 


现在 我 们 已 经 从 头 到 尾 地 复习 整个 虚拟 存储 系统 。 和 希望 大 多 数 细 节 都 
很 容易 明白 ， 因 为 你 应 该 已 经 对 大 部 分 基本 机 制 和 策略 有 了 很 好 的 理 
解 。Levy 和 Lipman [LL82j] 出 色 的 (简短 的 ) 论文 中 有 更 详细 的 介绍 。 
建议 你 阅读 它 ， 这 是 了 解 这 些 章节 背后 的 资源 来 源 的 好 方法 。 


在 可 能 的 情况 下 ， 你 还 应 该 通过 阅读 Linux 和 其 他 现代 系统 来 了 解 更 多 
关于 最 新 技术 的 信息 。 有 很 多 原始 资料 ， 包 括 一 些 不 错 的 书籍 
[BC05] 。 有 一 件 事 会 让 你 感到 惊讶 : 在 诸如 VAX/VMS 这 样 的 较 早 论文 中 
看 到 的 经 典 理 念 ， 仍 然 影响 着 现代 操作 系统 的 构建 方式 。 
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第 24 章 ”内存 虚拟 化 总 结对 话 


学 生 : 《大 口 吸 气 ) 哇 ， 这 部 分 内 容 很 多 。 
教授 : 是 的 ， 那 么 …… 

学 生 : 那么 ， 我 应 该 如 何 记 住 这 一 切 ? 你 懂 的 ， 为 了 考试 ? 
教授 : 天 啊 ， 我 希望 这 不 是 你 试图 记 住 它 的 原因 。 

学 生 : 那 我 为 什么 要 记 住 呢 ? 


教授 : 算 了 吧 ， 我 以 为 你 领会 更 好 。 你 试图 在 这 里 学 习 一 些 东 西 ， 这 
样 当 你 走 进 这 个 世界 时 ， 就 会 明白 系统 是 如 何 工作 的 。 


学 生 ， 嗯 …… 你 能 举 个 例子 吗 ? 


教授 : 当然 ! 当 我 还 在 研究 生 院 时 ， 有 一 次 我 和 朋友 正在 测量 内 存 存 
取 的 时 间 ， 有 时 候 这 些 数字 比 我 们 预期 的 要 高 。 我 们 认为 所 有 数据 都 
很 好 地 融入 了 二 级 硬件 缓存 中 ， 你 知道 ， 因 此 应 该 非常 快速 地 访问 。 


学 生 : 《点 头 ) 


教授 : 我 们 无 法 弄 清楚 发 生 了 什么 事 。 那 么 你 在 这 种 情况 下 做 什么 ? 
很 容易 ， 问 一 位 教授 ! 于 是 我 们 去 问 一 位 教授 ， 他 看 过 我 们 制作 的 图 
表 ， 简 单 地 说 “TLB”。 啊 哈 ! 当然 ，TLB 未 命中 ! 我 们 为 什么 没有 想 
到 这 个 ? 有 一 个 好 的 虚拟 内 存 模 型 可 以 帮助 诊断 各 种 有 趣 的 性 能 问 


题 。 

学 生 : 我 想 我 明白 了 。 我 要 尝试 建立 这 些 关 于 事情 如 何 工 作 的 心智 模 
型 ， 以 便 我 在 那里 独立 工作 ， 当 系统 不 像 预期 的 那样 行事 时 ， 不 会 感 
到 惊讶 。 我 甚至 应 该 能 够 预测 系统 将 如 何 工作 ， 只 要 想 想 它 就 行 。 


教授 : 确实 如 此 。 那 么 你 学 到 了 什么 ? 关于 虚拟 内 存 如 何 工作 的 ， 你 
的 心智 模型 有 哪些 ? 

















学 生 : 我 认为 我 现在 对 进程 引用 内 存 时 会 发 生 什 么 有 了 很 好 的 概念 ， 
和 


教授 : 听 起 来 不 错 ， 说 下 去 。 


学 生 : 那么 ， 我 会 永远 记 住 的 一 件 事 是 ， 我 们 在 用 户 程序 中 看 到 的 地 
址 ， 例 如 用 C 语 言 编 写 的 …… 


教授 ， 还 有 什么 其 他 的 语言 ? 


学 生 : 〔〈 继 续 ) …… 是 的 ， 我 知道 你 喜欢 C， 我 也 是 ! 无 论 如 何 ， 正 如 
我 所 说 的 ， 我 现在 真 的 知道 ， 我 们 在 程序 中 可 以 观察 到 的 所 有 地 址 都 
是 虚拟 地 址 。 作 为 一 名 程序 员 ， 我 只 是 看 到 了 数据 和 代码 在 内 存 中 的 
假象 。 我 曾经 认为 能 够 打印 指针 的 地 址 是 很 酷 的 ， 但 现在 我 发 现 它 令 
人 


教授 : 你 看 不 到 ， 操 作 系 统 肯定 会 向 你 隐藏 的 。 还 有 什么 ? 


学 生 : 嗯 ， 我 认为 TLB 是 一 个 非常 关键 的 部 分 ， 为 系统 提供 了 一 个 地 址 
转换 的 小 硬件 缓存 。 页 表 通 常 相 当 大 ， 因 此 放 在 大 而 慢 的 内 存 中 。 没 
有 TLB， 程 序 运行 速度 肯定 会 慢 得 多 。TLB 似 乎 真 的 让 虚拟 内 存 成 为 可 
能 。 我 无 法 想象 构建 一 个 没有 TLB 的 系统 ! 我 想到 了 一 个 超出 TLB 履 盖 
范围 的 程序 ， 所 有 那些 TLB 未 命中 ， 人 简直 不 敢 看 。 


教授 : 是 的 ， 蒙 住 孩子 们 的 眼睛 ! 除了 TLB， 你 还 学 到 了 什么 ? 


学 生 : 我 现在 也 明白 ， 页 表 是 需要 了 解 的 数据 结构 之 一 。 它 只 是 一 个 
数据 结构 ， 这 意味 着 几乎 可 以 使 用 任何 结构 。 我 们 从 简单 的 结构 《如 
数组 ， 即 线性 页 表 ) 开始 ， 一 直到 多 级 表 〈 它 们 看 起 来 像 树 ) ， 甚 至 
像 内 核 虚 拟 内 存 中 的 可 分 页 页 表 一 样 疡 狂 。 全 是 为 了 在 内 存 中 节省 一 


点 空间 ! 
教授 : 的 确 如 此 。 
学 生 : 还 有 一 件 更 重要 的 事情 : 我 了 解 到 ， 地 址 转换 结构 需要 足够 灵 


活 ， 以 文 持 程序 员 想 要 处 理 的 地 址 空间 。 在 这 个 意义 上 ， 像 多 级 表 这 
样 的 结构 是 完美 的 。 它 们 只 在 用 户 需 要 一 部 分 地 址 空间 时 才 创 建 表 空 























间 ， 因 此 几乎 没有 浪费 。 早 期 的 尝试 ， 比 如 简单 的 基 址 和 界限 寄存 
0 
日 匹配 。 


教授 : 这 是 一 个 很 好 的 观点 。 我 们 所 学 到 的 关于 交换 到 磁盘 的 所 有 内 
容 的 情况 如 何 ? 


学 生 : 好 的 ， 学 习 肯 定 很 有 趣 ， 而 且 很 好 地 知道 页 蔡 换 的 工作 原理 。 
一 些 基 本 的 策略 是 很 明显 的 〈 比 如 LRU) ， 但 是 建立 一 个 真正 的 虚拟 内 
存 系统 似乎 更 有 趣 ， 就 像 我 们 在 VMS 案 例 研究 中 看 到 的 一 样 。 但 不 知 何 
故 ， 我 及 现 这 些 机 制 更 有 趣 ， 而 策略 则 不 太 有 趣 。 


教授 : 哦 ， 那 是 为 什么 ? 

学 生 : 正如 你 所 说 的 那样 ， 最 终 解决 策略 问题 的 好 办 法 很 简单 ， 购买 
0 
和 


教授 : 什么 ? 




















教授 : 噢 ， 很 好 ， 很 好 ! 这 里 有 些 钱 ， 去 买 一 些 DRAM， 小 事情 。 


学 生 : 谢谢 教授 ! 我 再 也 不 会 交换 到 硬盘 了 一 一 或 者 ， 如 果 发 生 交 
换 ， 至 少 我 会 知道 实际 发 生 了 什么 ! 





第 25 章 ”关于 并 发 的 对 话 





教授 : 现在 我 们 要 开始 讲 操作 系统 三 大 主题 中 的 第 二 个 : 并 发 。 

学 生 : 我 以 为 有 四 大 主题 …… 

教授 : 不 ， 那 是 在 这 本 书 的 旧版 本 中 。 

学 生 : 号 ， 好 的 。 那 么 什么 是 并 发 ， 教 授 ? 

教授 : 想象 我 们 有 一 个 桃子 一 一 

学 生 : 〔( 打 断 ) 又 是 桃子 ! 您 和 桃子 有 什么 关系 ? 

教授 : 读 过 T.S. 艾 略 特 的 作品 吗 ? 《The Love Song of J. Alfred 
RN 中 写 到 “Do I dare to eat a peach”， 还 有 那些 有 趣 的 


学 生 : 哦 ， 是 的 ! 是 在 高 中 的 英语 课 上 学 到 的 。 我 非常 喜欢 那个 部 
4 

思 。o 

教授 : ( 打 断 ) 这 与 此 无 关 ， 我 只 是 喜欢 桃子 。 不 管 怎样 ， 想 象 一 下 
桌子 上 有 很 多 桃子 ， 还 有 很 多 人 想 吃 它们 。 比 方 说 ， 我 们 这 样 做 : 每 
个 食客 首先 在 视觉 上 识别 桃子 ， 然 后 试图 抓 住 并 吃 掉 桃子 。 这 种 方法 
有 什么 问题 ? 

学 生 ， 嗯 …… 好 像 你 可 能 会 看 到 别人 也 看 到 的 桃子 。 如 果 他 们 先 合 
到 ， 当 你 伸 出 手 时 ， 就 拿 不 到 桃子 了 ! 


教授 :; 确实 ! 那么 我 们 应 该 怎么 做 呢 ? 


学 生 : 好 吧 ， 可 能 会 想 一 个 更 好 的 方法 来 解决 这 个 问题 。 也 许 会 排 
队 ， 当 你 到 达 前 面 时 ， 抓 起 桃子 并 继续 前 进 。 


教授 : 好 ! 但 是 你 的 方法 有 什么 问题 ? 





学 生 : 哎 ， 我 必须 做 所 有 的 工作 吗 ? 
教授 : 是 的 。 


学 生 : 好 的 ， 让 我 想 想 。 好 吧 ， 我 们 曾经 让 很 多 人 同时 抓 起 桃子 ， 速 
度 更 快 。 但 以 我 的 方式 ， 我 们 只 是 一 次 一 个 ， 这 是 正确 的 ， 但 速度 较 
慢 。 最 好 的 方法 是 既 快速 义 正 确 。 


教授 : 你 真 的 开始 让 我 刊 目 相 看 。 事 实 上 ， 你 刚才 告诉 了 我 们 关于 并 
发 的 所 有 知识 ! 做 得 好 。 


学 生 : 我 做 到 了 ? 我 以 为 我 们 只 是 在 谈论 桃子 。 还 记得 ， 这 通常 是 您 
再 次 开讲 计算 机 的 一 部 分 。 


教授 ， 的确 如 此 。 我 道歉 ! 永远 不 要 忘记 具体 概念 。 好 吧 ， 事 实证 
明 ， 存 在 某 些 类 型 的 程序 ， 我 们 称 之 为 多 线程 (multi-threaded) 应 
用 程序 。 每 个 线程 〈thread) 都 像 在 这 个 程序 中 运行 的 独立 代理 程 
序 ， 代 表 程 序 做 事 。 但 是 这 些 线程 访问 内 存 ， 对 于 它们 来 说 ， 每 个 内 
存 节点 就 像 一 个 桃子 。 如 果 我 们 不 协调 线程 之 间 的 内 存 访问 ， 程 序 将 
无 法 按 预 期 工作 。 懂 了 吗 ? 


学 生 : 有 点 懂 了 。 但 是 为 什么 我 们 要 在 操作 系统 课 上 谈论 这 个 问题 ? 
这 不 束 是 应 用 程序 编程 吗 ? 


教授 : 好 问题 ! 实际 上 有 几 个 原因 。 首 先 ， 操 作 系 统 必 须 用 锁 
(lock) 和 条 件 变量 (condition variable) 这 样 的 原 语 ， 来 支持 多 
线程 应 用 程序 ， 我 们 很 快 会 讨论 。 其 次 ， 操 作 系 统 本 身 是 第 一 个 并 发 
程序 一 一 它 必 须 非常 小 心地 访问 目 己 的 内 存 ， 否 则 会 发 生 许 多 奇怪 而 
可 怕 的 事情 。 真 的 ， 会 变 得 非常 可 怕 。 


学 生 : 我 明白 了 。 上 听 起 来 不 错 。 我 猜 ， 还 有 更 多 的 细节 ， 是 不 是 ? 
教授 : 确实 有 2 
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目前 为 止 ， 我 们 已 经 看 到 了 操作 系统 提供 的 基本 抽象 的 发 展 ; 也 看 到 
了 如 何 将 一 个 物理 CPU 变 成 多 个 虚拟 CPU (virtual CPU) ， 从 而 文 持 多 
个 程序 同时 运行 的 假象 ， 还 看 到 了 如 何 为 每 个 进程 创建 巨大 的 、 私 有 
的 虚拟 内 存 (virtual memory ) 的 假象 ， 这 种 地 址 空间 (address 
space ) 的 抽象 让 每 个 程序 好 像 拥 有 上 自己 的 内 存 ， 而 实际 上 操作 系统 秘 
密 地 让 多 个 地 址 空间 复 用 物理 内 存 〈 或 者 厂 盘 ) 。 


本 章 将 介绍 为 单个 运行 进程 提供 的 新 抽象 : 线程 (thread) 。 经 典 观 
点 是 一 个 程序 只 有 一 个 执行 点 〈 一 个 程序 计数 器 ， 用 来 存放 要 执行 的 
站 邻 ) ， 但 多 线程 (multi-threaded) 程序 会 有 多 个 执行 点 (多 个 程 
序 计数 器 ， 每 个 都 用 于 取 指 令 和 执行 )。 换 一 个 角度 来 看 ， 每 个 线程 
类 似 于 独立 的 进程 ， 只 有 一 点 区 别 : 它们 共享 地 址 空间 ， 从 而 能 够 访 
问 相 同 的 数据 。 


因此 ， 单 个 线程 的 状态 与 进程 状态 非常 类 似 。 线 程 有 一 个 程序 计数 器 
(PC) ， 记 录 程 序 从 哪里 获取 指令 。 每 个 线程 有 自己 的 一 组 用 于 计算 
的 寄存 器 。 所 以 ， 如 果 有 两 个 线程 运行 在 一 个 处 理 器 上 ， 从 运行 一 个 
线程 CT1) 切换 到 另 一 个 线程 (T2) 时 ， 必 定 发 生 上 和 下文 切换 
(context Switch) 。 线 程 之 间 的 上 下 文 切换 类 似 于 进程 则 的 上 下 文 
切换 。 对 于 进程 ， 我 们 将 状态 保存 到 进程 控制 块 (Process Control 
Block，PCB) 。 现 在 ， 我 们 需要 一 个 或 多 个 线程 控制 块 (Thread 
Control Block，TCB) ， 保 存 每 个 线程 的 状态 。 但 是 ， 与 进程 相 比 ， 
线程 之 间 的 上 下 文 切 换 有 一 点 主要 区 别 : 地 址 空间 保持 不 变 《〈 即 不 需 
要 切换 当前 使 用 的 页 表 ) 。 


线程 和 进程 之 间 的 另 一 个 主要 区 别 在 于 栈 。 在 简单 的 传统 进程 地 址 衬 
间 模 型 [我 们 现在 可 以 称 之 为 单线 程 (single-threaded) 进程 ] 中 ， 
只 有 一 个 栈 ， 通 常 位 于 地 址 空间 的 底部 〈 见 图 26. 1 左 图 ) 。 








OkB 
程序 代码 | 代码 段 : 放 指令 的 地 方 

Hh me 堆 段 ; 包含 malloe 

分 配 的 数据 


动态 效 据 络 构 
( 它 同 下 增长) 


( 尼 向 上 增长 ) 
栈 段 : 包 

含 局 部 变 基 
图 数 的 参数 
返回 值 等 

图 26. 1 单线 程 和 多 线程 的 地 址 空间 

然而 ， 在 多 线程 的 进程 中 ， 每 个 线程 独立 运行 ， 当 然 可 以 调用 各 种 例 
程 来 完成 正在 执行 的 任何 工作 。 不 是 地 址 空间 中 只 有 一 个 栈 ， 而 是 每 


个 线程 都 有 一 个 栈 。 假 设 有 一 个 多 线程 的 进程 ， 它 有 两 个 线程 ， 结 果 
地 址 空间 看 起 来 不 同 〈 见 图 26. 1 右 图 ) 。 


在 图 26. 1 中 ， 可 以 看 到 两 个 栈 跨越 了 进程 的 地 址 空间 。 因 此 ， 所 有 位 
于 栈 上 的 变量 、 参 数 、 返 回 值 和 其 他 放 在 栈 上 的 东西 ， 将 被 放置 在 有 
时 称 为 线程 本 地 〈thread-local) 存储 的 地 方 ， 即 相关 线程 的 栈 。 


你 可 能 注意 到 ， 多 个 栈 也 破坏 了 地 址 空间 布局 的 美感 。 必 前 ， 准 和 成 
可 以 互 不 影响 地 增长 ， 直到 空间 耗 尽 。 多 个 栈 就 没有 这 么 简单 了 。 笠 























运 的 是 ， 通 常 栈 不 会 很 大 (除了 大 量 使 用 递归 的 程序 〉。 


26. 1 实例 : 线程 创建 


假设 我 们 想 运 行 一 个 程序 ， 它 创建 两 个 线程 ， 每 个 线程 都 做 了 一 些 独 
立 的 工作 ， 在 这 例子 中 ， 打 印 “A” 或 “B”。 代 码 如 图 26. 2 所 示 。 


主 程序 创建 了 两 个 线程 ， 分 别 执行 函数 mythread() ， 但 是 传 入 不 同 的 
参数 〈 字 符 串 类 型 的 A 或 者 B) 。 一 旦 线程 创建 ， 可 能 会 立即 运行 〈 取 
决 于 调度 程序 的 兴致 ) ， 或 者 处 于 就 绪 状 态 ， 等 竺 执行。 创建 了 两 个 
线程 (CT1 和 T2) 后 ， 主 程序 调用 pthread join() ， 等 竺 特定 线程 完 
成 。 



































1 #include <stdio.h> 

2 #include <assert.n> 

3 #include <pthread.h> 

4 

3S void *mythread (void *arg) { 

6 printf("%s\n", (char *) arg); 

7 return NULL; 

8 } 

9 

10 int 

11 main(int argc, char *argv[]) { 

12 pthread t pl, p2; 

13 主 站 蕊 :基色 7 

14 printf ("main: begin\n"); 

下 rc = Pthreaq_create (&P1I，NULL，mythread， "A"); assert (rc == 0); 
16 rc = pthread create(&p2, NULL, mythread, "B"); assert(rc == 0); 
17 // join waits for the threads to finish 

18 rc = pthread join(pl, NULL); assert (rc == 0); 
19 rc = pthread join(p2, NULL); assert (rc == 0); 
20 printf("main: end\n"); 

已 于 return 0; 

22 } 





图 26. 2 简单 线程 创建 代码 〈t0. c) 


让 我 们 来 看 看 这 个 小 程序 的 可 能 执行 顺序 。 在 表 26. 1 中 ， 向 下 方向 表 
示 时 间 增 加 ， 每 个 列 显 示 不 同 的 线程 〈 主 线程 、 线 程 1 或 线程 2) 何 时 
运行 。 





表 26. 1 线程 追踪 〈1) 


运行 


打印 “main:begin?” 
创建 线程 1 
创建 线程 2 


等 待 线程 1 









运行 
打 印 A 2 
返回 





\ 一 /一 


打印 SB 
返回 








但 请 注意 ， 这 种 排序 不 是 唯一 可 能 的 顺序 。 实 际 上 ， 给 定 一 系列 指 
令 ， 有 很 多 可 能 的 顺序 ， 这 取决 于 调度 程序 决定 在 给 定时 刻 运 行 哪个 
线程 。 例 如 ， 创 建 一 个 线程 后 ， 它 可 能 会 立即 运行 ， 这 将 导致 表 26. 2 
中 的 执行 顺序 。 





表 26. 2 线程 追踪 〈2) 


主 程序 


开始 运行 
打印 “main:begin?” 
创建 线程 1 








打印 人 
返回 











创建 线程 2 


运行 
打 印 lB 39 
返回 


等 待 线程 1 
疼 已 旋 厅 ， 丝 本 1 局 和 穹 励 
等 待 线程 2 
疼 局 旋 厅 ， 丝 想 2? 局 笼 励 
打印 “main:end?” 














我 们 甚至 可 以 在 “A” 之 前 看 到 “B”， 即 使 先前 创建 了 线程 1， 如 果 调 
度 程 序 决 定 先 运 行 线程 2， 没 有 理由 认为 先 创 建 的 线程 先 运行 。 表 26. 3 
展示 了 最 终 的 执行 顺序 ， 线 程 2 在 线程 1 之 前 先 展示 它 的 结果 。 


表 26. 3 线程 追踪 (3) 








主 程序 


开始 运行 

打印 “main:begin?” 
创建 线程 1 

创建 线程 2 


打印 让 | 革 和 
返回 
打印 0 
返回 


等 待 线程 2 
六 包 砍 厅 ， 毕 不? 已 完 艳 

















打印 “main'erd” | | | 


如 你 所 见 ， 线 程 创建 有 点 像 进行 函数 调用 。 然 而 ， 并 不 是 首先 执行 函 

数 然后 返回 给 调用 者 ， 而 是 为 被 调用 的 例 程 创建 一 个 新 的 执行 线程 ， 

J 运行 ， 可 能 在 从 创建 者 返回 之 前 运行 ， 但 也 许 会 
得 


从 这 个 例子 中 也 可 以 看 到 ， 线 程 让 生活 变 得 复杂 : 已 经 很 难说 出 什么 
时 候 会 运行 了 ! 没有 并 发 ， 计 算 机 也 很 难 理解 。 遗 憾 的 是 ， 有 了 并 
发 ， 情 况 变 得 更 糟 ， 而 且 灶 糕 得 多 。 


26. 2 为 什么 更 糟糕 ;共享 数据 








上 面 演示 的 简单 线程 示例 非常 有 用 ， 它 展示 了 线程 如 何 创 建 ， 根 据 调 
度 程序 的 决定 ， 它 们 如 何以 不 同 顺序 运行 。 但 是 ， 它 没有 展示 线程 在 
访问 共享 数据 时 如 何 相互 作用 。 


设想 一 个 简单 的 例子 ， 其 中 两 个 线程 希望 更 新 全 局 共享 变量 。 我 们 要 
研究 的 代码 如 图 26. 3 所 示 。 


#include <stdio.h> 
#include <pthread.n> 
#include "mythreads.h" 








static volatile int counter = 0; 


7 

// mythread () 

ZF 

10 // Simply adds 1 to counter repeatedly, in a loop 
于 于 // No, this is not how you would add 10,000,000 to 


OOOODP 


12 // a counter, but it shows the problem nicely. 
13 // 

14 Void * 

1 mythread (void *arg) 





16 { 








下 了 Printt("gss: begin\n", (char *) arg) 
18 i 工序 

19 for (i = 0; i < le7; i++) { 

20 counter = counter + 1; 

之 } 

22 printf("%s: done\n", (char *) arg); 
23 return NULL; 


25 


26 // 
27 // main () 
28 // 


29 // Just launches two threads (pthread create) 
30 // and then waits for them (pthread join) 
































31 A 

3 宇 瑟 二 

33 main(int argc, char *argv[]) 

34 { 

35 pthread t pl, p2; 

36 printf("main: begin (counter = %d)\n", counter); 
3:7 Pthread create(&pl, NULL, mythread, "A"); 

38 Pthread create(&p2, NULL, mythread, "B"); 

39 

40 // join waits for the threads to finish 

41 Pthread join(pl, NULL); 

42 Pthread join(p2, NULL); 

43 printf("main: done with both (counter = %d)\n", counter); 
44 return 0; 

45 } 


图 26. 3 ”共享 数据 : 哎呀 (t1. cc) 


以 下 是 关于 代码 的 一 些 说 明 。 首 先 ， 如 Stevens 建 议 的 [SR05] ， 我 们 封 
装 了 线程 创建 和 合并 例 程 ， 以 便 在 失败 时 退出 。 对 于 这 样 简单 的 程 
序 ， 我 们 希望 至 少 注 意 到 发 生 了 错误 (如 果 发 生 了 错误 ) ， 但 不 做 任 
何 非常 聪明 的 处 理 ( 只 是 退出 ) 。 因 此 ，Pthread create() 只 需 调用 
pthread create()， 并 确保 返回 码 为 0。 如 果 不 是 ，Pthread create() 
就 打印 一 条 消息 并 退出 。 


其 次 ， 我 们 没有 用 两 个 独立 的 函数 作为 工作 线程 ， 只 使 用 了 一 段 代 
码 ， 并 向 线程 传 入 一 个 参数 (在 本 例 中 是 一 个 字符 串 〉)， 这 样 就 可 以 
让 每 个 线程 在 打印 它 的 消息 之 前 ， 打 印 不 同 的 字母 。 


最 后 ， 最 重要 的 是 ， 我 们 现在 可 以 看 看 每 个 工作 线程 正在 尝试 做 什 
么 : 向 共享 变量 计数 器 添加 一 个 数字 ， 并 在 循环 中 执行 1000 万 〈107) 
次 。 因 此 ， 预 期 的 最 终结 果 是 : 20000000。 


0 观 穴 它 的 行为 。 有 时 候 ， 一 切 如 我 们 预 
期 的 那样 : 


prompt> gcc -o main main.c -Wall -pthread 
prompt> ./main 

main: begin (counter = 0) 

A: begin 

B: begin 

A: done 








B: done 
main: done with both (counter = 20000000) 


遗憾 的 是 ， 即 使 是 在 单 处 理 器 上 运行 这 段 代 码 ， 也 不 一 定 能 获得 预期 
结果 。 有 时 会 这 样 : 


prompt> ./main 

main: begin (counter = 0) 

A: begin 

B: begin 

A: done 

B: done 

main: done with both (counter = 19345221) 


让 我 们 再 斌 一次， 看 看 我 们 是 否 疯 了 。 毕 竞 ， 计算机 不 是 应 该 产生 确 
定 的 (deterministic) 结果 ， 像 教授 讲 的 那样 ? ! 也 许 教授 一 直 在 骗 
你 ? (大 口 地 吸 气 ) 


prompt> ./main 

main: begin (counter = 0) 

A: begin 

B: begin 

A: done 

B: done 

main: done with both (counter = 19221041) 




















每 次 运行 不 但 会 会 产生 错误 ， 而 且 得 到 不 同 的 结果 ! 有 一 个 大 问题 : 为 
什么 会 发 生 这 种 情况 ? 


Re 
编程 、 调 试 和 理解 计算 机 系统 。 我 们 使 用 一 亮 的 工具 ， 
名 为 反 汇 编程 序 (disassembler) 。 0 
反 汇 编程 序 ， 它 会 显示 组 成 程序 的 汇编 指令 。 例 如 ， 如 果 我 
们 想 要 了 解 更 新 计数 器 的 底层 代码 〈 如 我 们 的 例子 ) ， 就 运 
行 ob jdump (Linux) 来 查看 汇编 代码 : 


prompt> objdump -d main 








这 样 做 会 产生 程序 中 所 有 指令 的 长 列表 ， 整 齐 地 标明 (特别 
是 如 果 你 使 用 -g 标 志 编 译 ) ， 其 中 包含 程序 中 的 符号 信息 。 





objdump 程 序 只 是 应 该 学 习 使 用 的 许多 工具 之 一 。 像 gdb 这 样 
的 调试 器 ， 像 valgrind 或 purify 这 样 的 内 存 分 析 器 ， 当 然 编 
译 器 本 身 也 应 该 花 时 间 去 了 解 更 多 信息 。 工 具 用 得 越 好 ， 就 
可 以 建立 更 好 的 系统 。 





26.3 核心 问题 : 不 可 控 的 调度 


为 了 理解 为 什么 会 发 生 这 种 情况 ， 我 们 必须 了 解 编译 器 为 更 新 计数 器 
生成 的 代码 序列 。 在 这 个 例子 中 ， 我 们 只 是 想 给 counter 加 上 一 个 数字 
(1) 。 因 此 ， 做 这 件 事 的 代码 序列 可 能 看 起 来 像 这 样 〈 在 x86 中 ) : 


mov 0x8049alc, $eax 
add $0xl, $eax 
mov Seax, 0x8049alc 


这 个 例子 假定 ， 变 量 counter 位 于 地 址 0x8049alc。 在 这 3 条 指令 中 ， 先 
用 x86 的 mov 指 令 ， 从 内 存 地 址 处 取出 值 ， 放 入 eax。 然 后 ， 给 eax 寄 存 
器 的 值 加 1 (0xl) 。 最 后 ，eax 的 值 被 存 回 内 存 中 相同 的 地 址 。 


设想 我 们 的 两 个 线程 之 一 (线程 1) 进入 这 个 代码 区 域 ， 并 且 因 此 将 要 
增加 一 个 计数 器 。 它 将 counter 的 值 〈 假 设 它 这 时 是 50) 加 载 到 它 的 寄 
存 器 eax 中 。 因 此 ， 线 程 1 的 eax = 50。 然 后 它 向 寄存 器 加 1， 因 此 eax 
= 51。 现 在 ， 一 件 不 幸 的 事情 发 生 了 : 时 钟 中 断 发 生 。 因 此 ， 操 作 系 
统 将 当前 正在 运行 的 线程 〈 它 的 程序 计数 器 、 寄 存 器 ， 包 括 eax 等 ) 的 
状态 保存 到 线程 的 TCB。 


现在 更 糟 的 事 发 生 了 : 线程 2 被 选中 运行 ， 并 进入 同一 段 代 码 。 它 也 执 
行 了 第 一 条 指令 ， 获 取 计 数 器 的 值 并 将 其 放 入 其 eax 中 [请 记 住 : 运行 
时 每 个 线程 都 有 自己 的 专用 寄存 器 。 上 下 文 切换 代码 将 寄存 器 虚拟 化 
(virtualized) ， 保 存 并 恢复 它们 的 值 ]。 此 时 counter 的 值 仍 为 50， 
因此 线程 2 的 eax = 50。 假 设 线程 2 执行 接 下 来 的 两 条 指令 ， 将 eax 递 增 
1 (因此 eax = 51) ， 然 后 将 eax 的 内 容 保 存 到 counter (地 址 
0x8049alc) 中 。 因 此 ， 全 局 变量 counter 现 在 的 值 是 51。 

















最 后 ， 又 发 生 一 次 上 下 文 切换 ， 线 程 1 恢 复 运 行 。 还 记得 它 已 经 执行 过 
mov 和 add 指 令 ， 现 在 准备 执行 最 后 一 条 mov 指 令 。 回 忆 一 下 ，eax=51 。 
因此 ， 最 后 的 mov 指 令 执 行 ， 将 值 保存 到 内 存 ，counter 再 次 被 设置 为 
51。 


简单 来 说 ， 发 生 的 情况 是 : 增加 counter 的 代码 被 执行 两 次 ， 初 始 值 为 
50， 但 是 结果 为 51。 这 个 程序 的 “正确 ”版 本 应 该 导致 变量 counter 等 
于 52。 


为 了 更 好 地 理解 问题 ， 让 我 们 追踪 一 下 详细 的 执行 。 假 设 在 这 个 例子 
中 ， 上 面 的 代码 被 加 载 到 内 存 中 的 地 址 100 上 ， 就 像 下 面 的 序列 一 样 
(熟悉 类 似 RISC 指 令 集 的 人 请 注意 : x86 具 有 可 变 长 度 指 令 。 这 个 mov 
间 令 占用 5 个 字 贡 的 内 存 ，add 只 占用 3 个 字 节 ) : 


105 add $0Oxl, Seax 
108 mov Seax, Ox8049alc 








有 了 这 些 假 设 ， 发 生 的 情况 如 表 26. 4 所 示 。 假 设 counter 从 50 开 始 ， 并 
追踪 这 个 例子 ， 确 保 你 明白 发 生 了 什么 。 


这 里 展示 的 情况 称 为 竞 态 条 件 (race condition) : 结果 取决 于 代码 
的 时 间 执 行 。 由 于 运气 不 好 “【〔 即 在 执行 过 程 中 发 生 的 上 下 文 切换 )， 
我 们 得 到 了 错误 的 结果 。 事 实 上 ， 可 能 每 次 都 会 得 到 不 同 的 结果 。 
此 ， 我 们 称 这 个 结果 是 不 确定 的 〈indeterminate) ， 而 不 是 确定 的 
(deterministic) 计算 〈 我 们 习惯 于 从 计算 机 中 得 到 ) 。 不 确定 的 计 
算 不 知道 输出 是 什么 ， 它 在 不 同和 运行 中 确实 可 能 是 不 同 的 。 


由 于 执行 这 段 代 码 的 多 个 线程 可 能 导致 竞争 状态 ， 因 此 我 们 将 此 段 代 
码 称 为 临界 区 (critical section) 。 临 界 区 是 访问 共享 变量 〈 或 更 
一 般 地 说 ， 共 享 资 源 ) 的 代码 片段 ， 一 定 不 能 由 多 个 线程 同时 执行 。 





表 26. 4 问题 ， 近 距离 查看 





口 
| | 


















正念 猴 克 之 礁 
mov Ox8049alc, 





mov Ox8049alc, 
Weax 


add $0xl, %eax 


mov %eax， 


0x8049alc 











我 们 真正 想 要 的 代码 就 是 所 谓 的 互 斥 (mutual exclusion) 。 这 个 属 
性 保证 了 如 果 一 个 线程 在 临界 区 内 执行 ， 其 他 线程 将 被 阻止 进入 临界 
区 3 


事实 上 ， 所 有 这 些 术 语 都 是 由 Edsger Dijkstra 创 造 的 ， 他 是 该 领域 的 
先驱 ， 并 且 因 为 这 项 工作 和 其 他 工作 而 获得 了 图 灵 奖 。 请 参阅 他 1968 
年 关于 “Cooperating Sequential Processes” 的 文章 [D68] ， 该 文 对 
这 个 问题 给 出 了 非常 清晰 的 描述 。 在 本 书 的 这 一 部 分 ， 我 们 将 多 次 看 
到 Di jkstra 的 名 字 。 





26.4 原子 性 愿望 


解决 这 个 问题 的 一 种 途径 是 拥有 更 强大 的 指令 ， 单 步 就 能 完成 要 做 的 
事 ， 从 而 消除 不 合 时 宜 的 中 断 的 可 能 性 。 比 如 ， 如 果 有 这 样 一 条 超级 


指令 怎么 样 ? 


memory-add 0x8049alc, $0x1l 





假设 这 条 指令 将 一 个 值 添加 到 内 存 位 置 ， 并 且 硬 件 保证 它 以 原子 方式 
(atomically) 执行 。 当 指令 执行 时 ， 它 会 像 期 望 那样 执行 更 新 。 它 
不 能 在 指令 中 间 中 断 ， 因 为 这 正 是 我 们 从 硬件 获得 的 保证 : 发 生 中 断 
时 ， 指 令 根本 没有 运行 ， 或 者 运行 完成 ， 没 有 中 间 状 态 。 硬 件 也 可 以 
很 漂亮 ， 不 是 吗 ? 

在 这 里 ， 原 子 方式 的 意思 是 “作为 一 个 单元 ”， 有 时 我 们 说 “全 部 或 
没有 ”。 我 们 希望 以 原子 方式 执行 3 个 指令 的 序列 ; 


add $0xl, $eax 
mov %Seax, 0x8049alc 








我 们 说 过 ， 如 果 有 一 条 指令 来 做 到 这 一 点 ， 我 们 可 以 发 出 这 条 指令 然 
后 完事 。 但 在 一 般 情 况 下 ， 不 会 有 这 样 的 指令 。 设 想 我 们 要 构建 一 个 
并 发 的 B 树 ， 并 和 希望 更 新 它 。 我 们 真 的 希望 硬件 文 持 “B 树 的 原子 性 更 
新 ”指令 吗 ? 可 能 不 会 ， 至 少 理智 的 指令 集 不 会 。 


因此 ， 我 们 要 做 的 是 要 求 硬 件 提 供 一 些 有 用 的 指令 ， 可 以 在 这 些 指令 
上 构建 一 个 通用 的 集合 ， 即 所 谓 的 同步 原 语 (synchronization 
primitive) 。 通 过 使 用 这 些 硬件 同步 原 语 ， 加 上 操作 系统 的 一 些 帮 
助 ， 我 们 将 能 够 构建 多 线程 代码 ， 以 同步 和 受 控 的 方式 访问 临界 区 ， 
从 而 可 靠 地 产生 正确 的 结果 一 一 尽管 有 并 发 执行 的 挑战 。 很 棒 ， 对 
[可 ?9 


补充 ， 关键 并 发 术语 
临界 区 、 竞 态 条 件 、 不 确定 性 、 互 斥 执 行 


这 4 个 术语 对 于 并 发 代码 来 说 非常 重要 ， 我 们 认为 有 必要 明确 
地 指出 。 请 参阅 Dijkstra 的 一 些 早期 著作 [D65，D68] 了解 更 








临界 区 (critical section) 是 访问 共享 资源 的 一 段 代 
人 码 ， 资 源 通 常 是 一 个 变量 或 数据 结构 。 
6 竞 态 条 件 (race condition) 出 现在 多 个 执行 线程 大 致 


同时 进入 临界 区 时 ， 它 们 都 试图 更 新 共享 的 数据 结构 ， 
导致 了 令 人 惊讶 的 (也 许 是 不 希望 的 ) 结果 。 


。 不 确定 性 (indeterminate) 程序 由 一 个 或 多 个 竞 态 条 件 
组 成 ， 程 序 的 输出 因 运 行 而 异 ， 具 体 取 决 于 哪些 线程 在 
何 时 运行 。 这 导致 结果 不 是 确定 的 (deterministic)， 
而 我 们 通常 期 望 计算 机 系统 给 出 确定 的 结 


。 为 了 避免 这 些 问 题 ， 线 程 应 该 使 用 某 种 互 斥 〈mutual 
exclusion) 原 语 。 这 样 做 可 以 保证 只 有 一 个 线程 进入 临 
界 区 ， 从 而 避免 出 现 竞 态 ， 并 产生 确定 的 程序 输出 。 








这 是 本 书 的 这 一 部 分 要 研究 的 问题 。 这 是 一 个 精彩 而 困难 的 问题 ， 应 
该 让 你 有 点 伤 脑筋 “一 点 点 ) 。 如 果 没 有 ， 那 么 你 还 不 明白 ! 继续 工 
作 ， 直 到 头痛 ， 你 就 知道 正 朝 着 正确 的 方 辐 前 进 。 现 在 ， 休 忌 一 下 ， 
我 们 不 希望 你 的 脑 细 胞 受伤 太 多 。 





关键 问题 ， 如 何 实现 同步 
为 了 构建 有 用 的 同步 原 语 ， 需 要 从 硬件 中 获得 哪些 支持 ? 需 


要 从 操作 系统 中 获得 什么 支持 ?如 何 正确 有 效 地 构建 这 些 原 
语 ? 程序 如 何 使 用 它们 来 获得 期 望 的 结果 ? 


26.5 还 有 一 个 问题 : 等 待 另 一 个 线程 


本 章 提出 了 并 发 问题 ， 就 好 像 线程 之 间 只 有 一 种 交互 ， 即 访问 共享 变 
量 ， 因 此 需要 为 临界 区 文 持原 子 性 。 事 实证 明 ， 还 有 另 一 种 常见 的 交 
互 ， 即 一 个 线程 在 继续 之 前 必须 等 待 男 一 个 线程 完成 某 些 操 作 。 例 
如 ， 当 进程 执行 磁盘 I/0 并 进入 睡眠 状态 时 ， 会 产生 这 种 交互 。 当 IV0 
完成 时 ， 该 进程 需要 从 睡眠 中 唤醒 ， 以 便 继 续 进 行 。 


因此 ， 在 接 下 来 的 章节 中 ， 我 们 不 仅 要 研究 如 何 构 建 对 同步 原 语 的 支 
持 来 支持 原子 性 ， 还 要 研究 支持 在 多 线程 程序 中 常见 的 睡眠 /唤醒 交互 
的 机 制 。 如 果 现 在 不 明白 ， 没 问题 ! 当 你 阅读 条 件 变 量 (condition 
variable) 的 章节 时 ， 很 快 就 会 发 生 。 如 果 那 时 还 不 明白 ， 那 就 有 点 
问题 了 。 你 应 该 再 次 阅读 本 章 〈 一 遍 又 一 遍 ) ， 直 到 明白 。 











26.6 小 结 : 为 什么 操作 系统 课 要 研究 并 发 





在 结束 之 前 ， 你 可 能 会 有 一 个 问题 : 为 什么 我 们 要 在 03 类 中 研究 并 
发 ? 一 个 词 : “历史 ”。 操 作 系统 是 第 一 个 并 发 程序 ， 许 多 技术 都 是 
在 操作 系统 内 部 使 用 的 。 后 来 ， 在 多 线程 的 进程 中 ， 应 用 程序 员 也 必 
须 考 虑 这 些 事情 。 


例如 ， 设 想 有 两 个 进程 在 运行 。 假 设 它 们 都 调用 write 0 来 写 入 文件 ， 
并 且 都 希望 将 数据 退 加 到 文件 中 即将 数据 添加 到 文件 的 末尾 ， 从 而 
增加 文件 的 长 度 ) 。 为 此 ， 这 两 个 进程 都 必须 分 配 一 个 新 块 ， 记 录 在 
该 块 所 在 文件 的 inode 中 ， 并 更 改 文件 的 大 小 以 反映 新 的 、 增 加 的 大 小 
( 插 一 句 ， 在 本 书 的 第 3 部 分 ， 我 们 将 更 多 地 了 人 解 文件 ) 。 因 为 中 断 可 
能 随时 发 生 ， 所 以 更 新 这 些 共享 结构 的 代码 例如 ,分配 的 位 图 或 文 
件 的 inode) 是 临界 区 。 因 此 ， 从 引入 中 断 的 一 开始 ，0S 设 计 人 员 就 不 
得 不 担心 操作 系统 如 何 更 新 内 部 结构 。 不 合 时宜 的 中 断 会 导致 上 述 所 
有 问题 。 坚 不 奇怪 ， 页 表 、 进 程 列 表 、 文 件 系统 结构 以 及 几乎 每 个 内 








提示 : 使 用 原子 操作 


原子 操作 是 构建 计算 机 系统 的 最 强大 的 基础 技术 之 一 ， 从 计 
算 机 体系 结构 到 并 行 代码 (我 们 在 这 里 研究 的 内 容 ) 、 文 件 
0 
统 [L+93]。 


将 一 系列 动作 原子 化 (atomic) 背后 的 想法 可 以 简单 用 一 个 
短语 表达 : “全 部 或 没有 ”。 看 上 去 ， 要 么 你 希望 组 合 在 一 
起 的 所 有 活动 都 发 生 了 ， 要 么 它们 都 没有 发 生 。 不 会 看 到 中 
间 状 态 。 有 时 ， 将 许多 行为 组 合 为 单个 原子 动作 称 为 事务 
(transaction) ， 这 是 一 个 在 数据 库 和 事务 处 理 志 界 中 非常 
详细 地 发 展 的 概念 LGR92]。 


在 探讨 并 发 的 主题 中 ， 我 们 将 使 用 同步 原 语 ， 将 指令 的 短 序 
列 变 成 原子 性 的 执行 块 。 但 是 我 们 会 看 到 ， 原 子 性 的 想法 远 
不 止 这 些 。 例 如 ， 文 件 系统 使 用 诸如 日 志 记 录 或 写 入 时 复制 
等 技术 来 自动 转换 其 磁盘 状态 ， 这 对 于 在 系统 故障 时 正确 运 
行 至 关 重 要 。 如 果 不 明白 ， 不 要 担心 一 一 后 续 某 章 会 探讨 。 
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他 的 旧 论 文 、 讲 义 和 想 法 〈 为 了 后 人 ) 。 然 而 ， 他 的 许多 基础 性 工作 
早 在 多 年 前 就 在 埃 因 霍 温 理工 大 学 (Technische Hochshule of 
Eindhoven，THE ) 进行 ， 其 中 包括 这 篇 著名 的 关于 “Cooperating 
Sequential Processes” 的 论文 ， 该 论文 基本 上 概述 了 编写 多 线程 程 
序 必 须 考虑 的 所 有 问题 。Di jkstra 是 在 以 他 的 学 校 命 名 的 操作 系统 
“THE” 上 工作 时 做 出 这 些 研究 发 现 的 。“THE” 读 作 THE， 而 不 是 
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出 于 这 个 原因 ， 它 也 被 认为 是 Jim Gray 的 “大 脑 转 储 ”， 其 中 写 下 了 
他 所 知道 的 天 于 数据 库 管 理 系 统 如 何 工作 的 一 切 。 难 过 的 是 ，Gray 在 
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这 是 一 本 关于 分 布 式 系统 原子 事务 的 一 些 理论 和 实践 的 不 错 教材 。 对 
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[SRO5] “Advanced Programming in the UNIX Environment” 


我 们 说 过 很 多 次 ， 购 买 这 本 书 ， 然 后 一 点 一 点 阅读 ， 建 议 在 睡 前 阅 
读 。 这 样 ， 你 实际 上 会 更 快 地 入 睡 。 更 重要 的 是 ， 可 以 多 学 一 点 如 何 
成 为 一 名 称职 的 UNIX 程 序 员 。 





作业 


x86. py 这 个 程序 让 你 看 到 不 同 的 线程 交 蔡 如 何 导 致 或 避免 况 态 条 件 。 
请 参阅 README 文 件 ， 了 解 程序 如 何 工 作 及 其 基本 输入 的 详细 信息 ， 然 
后 回答 以 下 问题 。 


问题 


1. 开始 ， 我 们 来 看 一 个 简单 的 程序 ，“1oop.s”。 首 先 ， 阅 读 这 个 程 
序 ， 看 看 你 是 否 能 理解 它 : cat loop. s。 然 后 ， 用 这 些 参数 运行 它 : 


./xX86.py -p loop.s -t 1 -i 100 -R dx 





这 指定 了 一 个 单线 程 ， 每 100 条 指令 产生 一 个 中 断 ， 并 且 奶 踪 寄 存 
器 %dx。 你 能 弄 清 楚 %dx 在 运行 过 程 中 的 价值 吗 ? 你 有 答案 之 后 ， 运 行 
上 面 的 代码 并 使 用 -c 标 志 来 检查 你 的 答案 。 注 意 答案 的 左边 显示 了 右 
侧 指 令 运行 后 寄存 器 的 值 ( 或 内 存 的 值 〉。 


2. 现在 运行 相同 的 代码 ， 但 使 用 这 些 标志 : 


./X86.py -p loop.s -t 2 -i 100 -a dx=3,dx=3 -R dx 





这 指定 了 两 个 线程 ， 并 将 每 个 %dx 寄 存 嚣 初始 化 为 3。%dx 会 看 到 什么 
值 ? 使 用 -c 标 志 运 行 以 查看 答案 。 多 个 线程 的 存在 是 否 会 影响 计算 ? 
这 段 代 码 有 苋 态 条 件 吗 ? 


3. 现在 运行 以 下 命令 : 











./x86.py -p loop.s -t 2 -i 3 -r -a dx=3,dx=3 -R dx 





这 使 得 中 断 间隔 非常 小 且 随 机 。 使 用 不 同 的 种 子 和 -s 来 查看 不 同 的 交 
丛 。 中 断 频 率 是 否 会 改变 这 个 程序 的 行为 ? 


4. 接 下 来 我 们 将 研究 一 个 不 同 的 程序 (looping-race-nolock.s) 。 


该 程序 访问 位 于 内 存 地 址 2000 的 共享 变量 。 简 单 起 见 ， 我 们 称 这 个 变 
量 为 x。 使 用 单线 程 运行 它 ， 并 确保 你 了 解 它 的 功能 ， 如 下 所 示 : 








./x86.py -P looping-race-nolock.s -t 1 -M 2000 


在 整个 运行 过 程 中 ，x〔 即 内 存 地 址 为 2000〉 的 值 是 多 少 ? 使 用 -c 来 检 
查 你 的 答案 。 


5. 现在 运行 多 个 和 欠 代 和 线程 : 


./x86.py -p looping-race-nolock.s -t 2 -a bx=3 -M 2000 


你 明白 为 什么 每 个 线程 中 的 代码 循环 3 次 吗 ?x 的 最 终 值 是 什么 ? 
6. 现在 以 随机 中 断 间隔 运行 : 


./x86.py -p looping-race-nolock.s -t 2 -M 2000 -i 4 -r -s 0 


然后 改变 随机 种 子 ， 设 置 -s 1， 然 后 -s 2 等 。 只 看 线程 交 蔡 ， 你 能 说 
出 x 的 最 终 值 是 什么 吗 ? 中 断 的 确切 位 置 是 否 重 要 ? 在 哪里 发 生 是 安全 
的 ? 中 断 在 哪里 会 引起 麻烦 ? 换 句 话说 ， 临 界 区 完 竟 在 哪里 ? 


7. 现在 使 用 固定 的 中 断 间隔 来 进一步 探索 程序 。 


\ 一 /一 


和 运作 : 


./x86.py -p looping-race-nolock.s -a bx=1 -七 2 -M 2000 -i 1 











看 看 你 能 否 猜测 共享 变量 zx 的 最 终 值 是 什么 。 当 你 改 用 -i 2，-i 3 等 标 
志 呢 ? 对 于 哪个 中 断 闻 隔 ， 程 序 会 给 出 “正确 的 ”了 最 终 答案 ? 


8. 现在 为 更 多 循环 运行 相同 的 代码 (例如 set -a bx = 100) 。 使 用 - 
i 标 志 设 置 哪些 中 断 间 隔 会 导致 “正确 ”结果 ?哪些 间隔 会 导致 令 人 慰 
讶 的 结果 ? 

9. 我 们 来 看 本 作业 中 最 后 一 个 程序 (wait-for-me.s) 。 

像 这 样 运行 代码 : 


./X86.py -p wait-for-me.s -a ax=1l,ax=0 -R ax -M 2000 





这 将 线程 0 的 ax 寄存 器 设置 为 1， 并 将 线程 1 的 值 设置 为 0， 在 整个 运行 
过 程 中 观察 %ax 和 内 存 位置 2000 的 值 。 代 码 的 行为 应 该 如 何 ? 线程 使 用 
的 2000 位 置 的 值 如 何 ? 它 的 最 终 值 是 什么 ? 


10. 现在 改变 输入 : 


./X86.py -p wait-for-me.s -a ax=0yax=l -R ax -M 2000 





线程 行为 如 何 ? 线程 0 在 做 什么 ? 改变 中 断 间隔 《例如 ，-i 1000， 或 
者 可 能 使 用 随机 间隔 ) 会 如 何 改变 退 踩 结果 ? 程序 是 否 高 效 地 使 用 了 
CPU? 


第 27 章 “” 插 叙 : 线程 API 








本 章 介 绍 了 主要 的 线程 API。 后 续 章 节 也 会 进一步 介绍 如 何 使 用 API。 
更 多 的 细节 可 以 参考 其 他 书籍 和 在 线 资 源 [B89，B97，B+96，K+96] 。 
随后 的 章节 会 慢 慢 介绍 锁 和 条 件 变 量 的 概念 ， 因 此 本 章 可 以 作为 参 
考 。 


关键 问题 : 如 何 创建 和 控制 线程 ? 


操作 系统 应 该 提供 哪些 创建 和 控制 线程 的 接口 ? 这 些 接口 如 
何 设 计 得 易 用 和 实用 ? 


27.1 线程 创建 


编写 多 线程 程序 的 第 一 步 就 是 创建 新 线程 ， 因 此 必须 存在 某 种 线程 创 
建 接口 。 在 POSIX 中 ， 很 简单 : 


#include <pthread.h> 
int 


pthread _ create ( pthread: 长 六 thread, 
const pthread attr t * attr, 
void * (*start routine) (void*), 
void * arg); 








这 个 函数 声明 可 能 看 起 来 有 一 点 复杂 (尤其 是 如 果 你 没 在 C 中 用 过 函数 
指针 ) ， 但 实际 上 它 并 不 差 。 该 函数 有 4 个 参数 : thread、attr、 
start froutine 和 arg。 第 一 个 参数 thread 是 指向 pthread t 结 构 类 型 的 
指针 ， 我 们 将 利用 这 个 结构 与 该 线程 交互 ， 因 此 需要 将 它 传 入 
pthread_create() ， 以 便 将 它 初始 化 。 











第 二 个 参数 attr 用 于 指定 该 线程 可 能 具有 的 任何 属性 。 一 些 例子 包括 
设置 栈 大 小 ， 或 关于 该 线程 调度 优先 级 的 信息 。 一 个 属性 通过 单独 调 
用 pthread attr init() 来 初始 化 。 有 关 详 细 信 息 ， 请 参阅 手册 。 但 
是 ， 在 大 多 数 情 况 下 ， 默 认 值 就 行 。 在 这 个 例子 中 ， 我 们 只 需 传 入 
NULL 。 


第 三 个 参数 最 复杂 ， 但 它 实 际 上 只 是 问 : 这 个 线程 应 该 在 哪个 函数 中 
运行 ? 在 C 中 ， 我 们 把 它 称 为 一 个 函数 指针 (function pointer) ， 这 
个 指针 告诉 我 们 需要 以 下 内 容 : 一 个 函数 名 称 (start routine) ， 它 
被 传 入 一 个 类 型 为 void /参数 (start rovt7ne 后 历 / 困 盘 录 责 太 了 全 
一 牛 》， 尖 及 全 破 厅 一 个 void 类 型 的 值 〈( 即 一 个 void 指针 ) 。 


如 果 这 个 函数 需要 一 个 整数 参数 ， 而 不 是 一 个 void 指针 ， 那 么 声明 看 
起 来 像 这 样 : 








int pthread createl(..., // first two args are the same 
void * (*start routine) (int), 
工厂 七 arg); 


如 果 函 数 接受 void 指 针 作为 参数 ， 但 返回 一 个 整数 ， 函 数 声 明 会 变 
成 : 


int pthread createl(..., // first two args are the same 
int (*start routine) (void *), 
void * arg); 


最 后 ， 第 四 个 参数 arg 就 是 要 传递 给 线程 开始 执行 的 函数 的 参数 。 你 可 
能 会 问 : 为 什么 我 们 需要 这 些 void 指 针 ? 好 吧 ， 答 案 很 简单 : 将 void 
指针 作为 函数 的 参数 start_ routine， 允许 我 们 传 入 任何 类 型 的 参数 ， 
将 它 作 为 返回 值 ， 允 许 线程 返回 任何 类 型 的 结果 。 


下 面 来 看 图 27. 1 中 的 例子 。 这 里 我 们 只 是 创建 了 一 个 线程 ， 传 入 两 个 
参数 ， 它 们 被 打包 成 一 个 我 们 自己 定义 的 类 型 (myarg_t) 。 该 线程 一 
旦 创建 ， 可 以 简单 地 将 其 参数 转换 为 它 所 期 望 的 类 型 ， 从 而 根据 需要 
将 参数 解 包 。 


int pthread join (pthread t thread, void **value ptr); 


下 #include <pthread.h> 
双 


3 typedef struct myarg 七 { 


int a; 
int b; 
} myarg t; 


void *mythread (void *arg) { 








myarg t *m = (myarg t *) arg; 
0 printf("%d Sd\n", m->a, m->b); 
1 return NULL; 
12 } 
13 
14 int 
于 总 main(int argc, char *argv[]) { 
16 pthread t p; 
17 nt > 
1 
19 myarg t args; 
20 args.a = 10; 
2 并 args.b = 20; 
22 rc = pthread createl(&p, NULL, mythread, &args); 
23 ep 
24 } 





图 27. 1 创建 线程 
它 就 在 那里 ! 一 旦 你 创建 了 一 个 线程 ， 你 确实 拥有 了 另 一 个 活着 的 执 


行 实体 ， 它 有 自己 的 调用 栈 ， 与 程序 中 所 有 当前 存在 的 线程 在 相同 的 
地 址 空间 内 和 运行。 好玩 的 事 开 始 了 ! 











27.2 线程 完 


上 面 的 例子 展示 了 如 何 创建 一 个 线程 。 但 是 ， 如 果 你 想 等 待 线 程 完 
成 ， 会 发 生 什 么 情况 ?你 需要 做 一 些 特别 的 事情 来 等 待 完成 。 具 体 来 
说 ， 你 必须 调用 函数 pthread join()。 


该 函数 有 两 个 参数 。 第 一 个 是 pthread_t 类 型 ， 用 于 指定 要 等 待 的 线 
程 。 这 个 变量 是 由 线程 创建 函数 初始 化 的 〈 当 你 将 一 个 指针 作为 参数 
传递 给 pthread_createO 时) 。 如 果 你 保留 了 它 ， 就 可 以 用 它 来 等 待 
该 线程 终止。 


第 二 个 参数 是 一 个 指针 ， 指 向 你 希望 得 到 的 返回 值 。 因 为 函数 可 以 返 
回 任何 东西 ， 所 以 它 被 定义 为 返回 一 个 指向 void 的 指针 。 因 为 
pthread_ join 0 函数 改变 了 传 入 参数 的 值 ， 所 以 你 需要 传 入 一 个 指 问 
该 值 的 指针 ， 而 不 只 是 该 值 本 里。 





我 们 来 看 另 一 个 例子 〈 见 图 27.2) 。 在 代码 中 ， 再 次 创建 单个 线程 ， 
并 通过 myarg 结构 传递 一 些 参数 。 对 于 返回 值 ， 使 用 myret_t 型 。 当 
线程 完成 运行 时 ， 主 线程 已 经 在 pthread join (0) 函数 内 等 待 了 [由 。 然 
后 会 返回 ,我们 可 以 访问 线程 返回 的 值 ， 即 在 myret_t 中 的 内 容 。 


有 几 点 需要 说 明 。 首 先 ， 我 们 常常 不 需要 这 样 痛 藻 地 打包 、 解 包 参 
数 。 如 果 我 们 不 需要 参数 ， 创 建 线程 时 传 入 NULL 即 可 。 类 似 的 ， 如 果 
不 需要 返回 值 ， 那 么 pthread join( 调用 也 可 以 传 入 NULL。 





1 #include <stdio.n> 

2 #include <pthread.h> 

3 #include <assert.n> 

4 #include <stdlib.n> 

5 

6 typedef struct myarg 七 { 

7 int a 

8 nt .> 

9 } myarg t; 

10 

11 typedef struct ‘myret t 1 

12 主人 已、 训 

13 int YY 

14 } myret t; 

I 

16 void *mythread (void *arg) { 

二 myarg t xm = (myarg t *) arg; 
18 printf("%d Sd\n", m->a, m->b); 
19 myret t *r = Malloc(sizeof (myret 七 ) ) ; 
20 r->Xx = 1;»} 

乙 证 E=>Y = 2 

人 这 return (VOLd *) EE 

23 } 

24 

25 int 

26 main(int argc, char *argv[]) { 

27 二 各 刻 宇 他 

28 pthread t p; 

29 myret 七 *m; 

30 

3 myarg t args; 

32 args.a = 10; 

33 args.b = 20; 

34 Pthread create(&p, NULL, mythread, &args); 
35 Pthread join(p, (void **) gm); 
36 printf("returned %d %d\n", m->x, m->y); 
37 return 0; 

38 } 





图 27. 2 等待 线程 完成 


其 次 ， 如 果 我 们 只 传 入 一 个 值 〈 例 如 ， 一 个 int) ， 也 不 必 将 它 打包 为 
个 参数 。 图 27. 3 展示 了 一 个 例子 。 在 这 种 情况 下 ， 更 简单 一 些 ， 





为 我 们 不 必 在 结构 中 打包 参数 和 返回 值 。 


void *mythread(void *arg) { 


int m= (int) arg; 
EN 
return (void *) (arg + 1); 


int main(int argc, char *argv[]) { 
pthread t p; 
于 和 
Pthread create(&p, NULL, mythread, (void *) 100); 
Pthread join(p, (void **) ég&m); 
printf ("returned %d\n", m); 
return 0; 


图 27. 3 ” 较 简单 的 向 线程 传递 参数 示例 


再 次 ， 我 们 应 该 注意 ， 必 须 非 常 小 心 如 何 从 线程 返回 值 。 特 别 是 ， 永 
远 不 要 返回 一 个 指针 ， 并 让 和 它 指 向 线程 调用 栈 上 分 配 的 东西 。 如 果 这 
样 做 ， 你 认为 会 发 生 什 么 ? 《〈 想 一 想 ! ) 下 面 是 一 段 危 险 的 代码 示 
例 ， 对 图 27. 2 中 的 示例 做 了 修改 。 





下 void *mythread (void *arg) { 

2 myarg t *m = (myarg t *) arg; 

3 printf("%d Sd\n", m->a, m->b); 

4 myret t r; // ALLOCATED ON STACK: BAD! 
5 r.x = 1; 

6 ry = 2 

7 return (void *) &r; 

8 } 


在 这 个 例子 中 ， 变 量 z 被 分 配 在 mythread 的 栈 上 。 但 是 ， 当 它 返 回 时 ， 
该 值 会 自动 释放 (这 就 是 栈 使 用 起 来 很 简单 的 原因 ! ) ， 因 此 ， 将 指 
针 传 回 现 在 已 释放 的 变量 将 导致 各 种 不 好 的 结果 。 当 然 ， 当 你 打印 出 
你 以 为 的 返回 值 时 ， 你 可 能 会 感到 惊讶 (但 不 一 定 ! ) 。 试 试看 ， 自 
已 找 出 真相 [24! 


最 后 ， 你 可 能 会 注意 到 ， 使 用 pthread create () 创建 线程 ， 然 后 立即 
调用 pthread_ join() ， 这 是 创建 线程 的 一 种 非常 奇怪 的 方式 。 事 实 
上 ， 有 一 个 更 简单 的 方法 来 完成 这 个 任务 ， 它 被 称 为 过 程 调用 
(procedure call) 。 显 然 ， 我 们 通常 会 创建 不 止 一 个 线程 并 等 待 它 
完成 ， 否 则 根本 没有 太 多 的 用 途 。 




















我 们 应 该 注意 ， 并 非 所 有 多 线程 代码 都 使 用 join 函数 。 例 如 ， 多 线程 
Web 服 务 器 可 能 会 创建 大 量 工 作 线程 ， 然 后 使 用 主线 程 接受 请 求 ， 并 将 
其 无 限期 地 传递 给 工作 线程 。 因 此 这 样 的 长 期 程序 可 能 不 需要 join。 
然而 ， 创 建 线程 来 〈 并 行 ) 执行 特定 任务 的 并 行程 序 ， 很 可 能 会 使 用 
join 来 确保 在 退出 或 进入 下 一 阶段 计算 之 前 完成 所 有 这 些 工作 。 














27.3 锁 


除了 线程 创建 和 join 之 外 ，POSIX 线 程 库 提 供 的 最 有 用 的 函数 集 ， 可 能 
是 通过 锁 〈lock) 来 提供 互 斥 进入 临界 区 的 那些 函数 。 这 方面 最 基本 
的 一 对 也 | 数 是 : 


int pthread mutex lock(pthread mutex 七 *mutex); 
int pthread mutex unlock (pthread mutex t *mutex); 





函数 应 该 易于 理解 和 使 用 。 如 果 你 意识 到 有 一 段 代码 是 一 个 临界 区 ， 
就 需要 通过 锁 来 保护 ， 以 便 像 需要 的 那样 运行 。 你 大 概 可 以 想象 代码 
的 样子 : 

ones te oot oll 


x= x+ 1; // or whatever your critical section is 
pthread mutex unlock(&lock); 





这 段 代 码 的 意思 是 : 如 果 在 调用 pthread mutex lock () 时 没有 其 他 线 
程 持 有 锁 ， 线 程 将 获取 该 锁 并 进入 临界 区 。 如 果 男 一 个 线程 确实 持 有 
该 锁 ， 那 么 尝试 获取 该 锁 的 线程 将 不 会 从 该 调用 返回 ， 直 到 获得 该 锁 
(意味 着 持 有 该 锁 的 线程 通过 解锁 调用 释放 该 锁 ) 。 当 然 ， 在 给 定 的 
时 间 内 ， 许 多 线程 可 能 会 卡 住 ， 在 获取 锁 的 函数 内 部 等 待 。 然 而 ， 只 
有 获得 锁 的 线程 才 应 该 调用 解锁 。 


遗憾 的 是 ， 这 上 段 代 码 有 两 个 重要 的 问题 。 第 一 个 问题 是 缺乏 正确 的 初 
始 化 (lack of proper initialization) 。 所 有 锁 必 须 正 确 初 始 化 ， 
以 确保 它们 具有 正确 的 值 ， 并 在 锁 和 解锁 被 调用 时 按照 需要 工作 。 





对 于 POSIX 线 程 ， 有 两 种 方法 来 初始 化 锁 。 一 种 方法 是 使 用 
PTHREADWZTZT INITIALIZER， 如 下 所 示 : 





pthread mutex 七 lock = PTHREAD MUTEX INITIALIZER; 














这 样 做 会 将 锁 设置 为 默认 值 ， 从 而 使 锁 可 用 。 和 初始化 的 动态 方法 〈 即 
在 运行 时 ) 是 调用 pthread mutex init()， 如 下 所 示 : 


int rc = pthread mutex init (&lock, NULL); 
assert(rc == 0); // always check success! 





此 函数 的 第 一 个 参数 是 锁 本 身 的 地 址 ， 而 第 二 个 参数 是 一 组 可 选 属 
性 。 请 你 自己 去 详细 了 解 这 些 属性 。 传 入 NULL 就 是 使 用 默认 值 。 无 论 
哪 种 方式 都 有 效 ， 但 我 们 通常 使 用 动态 (后 者 ) 方法 。 请 注意 ， 当 你 
用 完 锁 时 ， 还 应 该 相应 地 调用 pthread mutex_destroy()， 所 有 细 市 请 
参阅 手册 。 


上 述 代码 的 第 二 个 问题 是 在 调用 获取 锁 和 释放 锁 时 没有 检查 错误 代 
码 。 就 像 UNIX 系 统 中 调用 的 任何 库 函 数 一 样 ， 这 些 函 数 也 可 能 会 失 
败 ! 如 果 你 的 代码 没有 正确 地 检查 错误 代码 ， 失 败 将 会 静 静 地 发 生 ， 
在 这 种 情况 下 ， 可 能 会 多 许多 个 线程 进入 临界 区 。 至 少 要 使 用 包装 的 
函数 ， 它 对 函数 成 功 加 上 断言 〈《 见 图 27.4) 。 更 复杂 的 《〈 非 玩具 ) 程 
序 ， 在 出 现 问题 时 不 能 简单 地 退出 ， 应 该 检查 失败 并 在 获取 锁 或 释放 
锁 未 成 功 时 执行 适当 的 操作 。 

// Use this to keep your code clean but check for failures 

// Only use if exiting program is OK upon failure 

void Pthread mutex lock (pthread mutex 七 *mutex) { 

int rc = pthread mutex lock (mutex); 


assert (rc == 0);，; 


} 








图 27. 4 包装 函数 示例 


获取 锁 和 释放 锁 函 数 不 是 pthread 与 锁 进 行 交 互 的 仅 有 的 函数 。 特 别 
是 ， 这 里 有 两 个 你 可 能 感 兴趣 的 函数 : 
int pthread mutex trylock (pthread mutex 七 *mutex); 


int pthread mutex 七 im dlock (pthread mutex 上 *mutex, 
struct timespec *abs timeout); 








这 两 个 调用 用 于 获取 锁 。 如 果 锁 已 被 占用 ， 则 trylock 版 本 将 失败 。 获 
取 锁 的 timedlock 定 版 本 会 在 超时 或 获取 锁 后 返回 ， 以 先 发 生 者 为 准 。 
因此 ， 上 有 具有 有 堆 超时 的 timedlock 退 化 为 trylock 的 情况 。 通 常 应 避免 使 
用 这 两 种 版 本 ， 但 有 些 情况 下 ， 避 免 卡 在 〈 可 能 无 限期 的 ) 获取 锁 的 
人 
锁 时 ) 。 





27.4 条 件 变量 





所 有 线程 库 还 有 一 个 主要 组 件 〈 当 然 PO0SIX 线 程 也 是 如 此 ) ， 就 是 存在 
一 个 条 件 变量 (condition variable) 。 当 线程 之 间 必 须发 生 某 种 信 
号 时 ， 如 果 一 个 线程 在 等 待 另 一 个 线程 继续 执行 某 些 操作 ， 条 件 变 量 
就 很 有 用。 和 希望 以 这 种 方式 进行 交互 的 程序 使 用 两 个 主要 函数 : 





int pthread cond wait (pthread cond t *cond, pthread mutex 七 *mutex); 
int pthread cond signal (pthread cond t *cond); 


要 使 用 条 件 变量 ， 必 须 男 外 有 一 个 与 此 条 件 相关 的 锁 。 在 调用 上 述 任 
何 一 个 函数 时 ， 应 该 持 有 这 个 锁 。 


第 一 个 函数 pthread_cond wait () 使 调用 线程 进入 休眠 状态 ， 因 此 等 待 
其 他 线程 发 出 信号 ， 通 常 当 程序 中 的 某 些 内 容 发 生变 化 时 ， 现 在 正在 
休眠 的 线程 可 能 会 关心 它 。— 典 型 的 用 法 如 下 所 示 : 














pthread mutex t lock = PTHREAD MUTEX INITIALIZER; 
pthread cond t cond = PTHREAD COND INITIALIZER; 




















Pthread mutex lock(&lock); 

while (ready == 0) 
Pthread cond wait(&cond, &lock); 

Pthread mutex unlock(&lock); 


在 这 段 代码 中 ， 在 初始 化 相关 的 锁 和 条 件 之 后 站， 一 个 线程 检查 变量 
ready 是 否 已 经 被 设置 为 零 以 外 的 值 。 如 果 没 有 ， 那 么 线程 只 是 简单 地 
调用 等 竺 函数 以 便 休 眠 ， 直 到 其 他 线程 唤醒 它 。 


唤醒 线程 的 代码 运行 在 另外 某 个 线程 中 ， 像 下 面 这 样 : 


Pthread mutex lock(&lock); 
ready = 1; 
Pthread cond signal (&congd); 
Pthread mutex unlock(&lock); 


关于 这 段 代 码 有 一 些 注意 事项 。 首 先 ， 在 发 出 信号 时 (以 及 修改 全 局 
变量 ready 时 ) ， 我 们 始终 确保 持 有 锁 。 这 确保 我 们 不 会 在 代码 中 意外 
引入 兑 态 条 件 。 


其 次 ， 你 可 能 会 注意 到 等 待 调用 将 锁 作 为 其 第 二 个 参数 ， 而 信号 调用 
仅 需 要 一 个 条 件 。 造 成 这 种 差异 的 原因 在 于 ， 等 待 调 用 除了 使 调用 线 
程 进 入 睡眠 状态 外 ， 还 会 让 调用 者 睡眠 时 释放 锁 。 想 象 一 下 ， 如 果 不 
是 这 样 : 其 他 线程 如 何 获得 锁 并 将 其 唤醒 ? 但 是 ， 在 被 唤醒 之 后 返回 
之 前 ，pthread_cond wait (0 会 重新 获取 该 锁 ， 从 而 确保 等 待 线程 在 等 
竺 序列 开始 时 获取 锁 与 结束 时 释放 锁 之 间 运 行 的 任何 时 间 ， 它 持 有 
锁 。 


最 后 一 点 需要 注意 : 等 待 线程 在 while 循 环 中 重新 检查 条 件 ， 而 不 是 简 
单 的 计 语 句 。 在 后 续 章 节 中 研究 条 件 变量 时 ， 我 们 会 详细 讨论 这 个 问 
题 ， 但 是 通常 使 用 while 循 环 是 一 件 简单 而 安全 的 事情 。 虽 然 它 重新 检 
查 了 这 种 情况 〈 可 能 会 增加 一 点 开销 ) ， 但 有 一 些 pthread 实 现 可 能 会 
错误 地 唤醒 等 竺 的 线程 。 在 这 种 情况 下 ， 没 有 重新 检查 ， 等 待 的 线程 
会 继续 认为 条 件 已 经 改变 。 因 此 ， 将 唤醒 视 为 茶 种 事物 可 能 已 经 发 生 
变化 的 暗示 ， 而 不 是 绝对 的 事实 ， 这 样 更 安全 。 

请 注意 ， 有 时 候 线程 之 间 不 用 条 件 变 量 和 锁 ， 用 一 个 标记 变量 会 看 起 
来 很 简单 ， 很 吸引 人 。 例 如 ， 我 们 可 以 重 写 上 面 的 等 竺 代码 ， 像 这 
样 : 


while (ready == 0) 
P/E 


























相关 的 发 信号 代码 看 起 来 像 这 样 : 
干 万 不 要 这 么 做 。 首 先 ， 多 数 情况 下 性 能 差 ( 长 时 间 的 自 旋 浪费 


CPU〉》。 其 次 ， 容 易 出 错 。 最 近 的 研究 [X+10] 显示， 线程 之 间 通 过 标志 
同步 ( 像 上 面 那样 ，， 出 错 的 可 能 性 让 人 吃惊 。 在 那 项 研究 中 ， 这 些 








不 正规 的 同步 方法 半数 以 上 都 是 有 问题 的 。 不 要 偷懒 ， 就 算 你 想到 可 
以 不 用 条 件 变量 ， 还 是 用 吧 。 


如 果 条 件 变 量 听 起 来 让 人 迷惑 ， 也 不 要 太 担 心 。 后 面 的 章节 会 详细 介 
绍 。 在 此 之 前 ， 只 要 知道 它们 存在 ， 并 对 为 什么 要 使 用 它们 有 一 些 概 
念 即 可 。 


27.5 编译 和 运行 


本 章 所 有 代码 很 容易 运行 。 代 码 需 要 包括 头 文件 pthread.h 才 能 编译 。 
链接 时 需要 pthread 库 ， 增 加 -pthread 标 记 。 


例如 ， 要 编译 一 个 简单 的 多 线程 程序 ， 只 需 像 下 面 这 样 做 : 


prompt> gcc -o main main.c -Wall -pthread 


只 要 main. c 包 仿 pthreads 头 文件 ， 你 就 已 经 成 功 地 编译 了 一 个 并 发 程 
序 。 像 往常 一 样 ， 它 是 否 能 工作 完全 是 另 一 回 事 。 


27.6 小 结 


我 们 介绍 了 基本 的 pthread 库 ， 包 括 线程 创建 ， 通 过 锁 创 建 互 斥 执行 ， 
通过 条 件 变量 的 信号 和 等 待 。 要 想 写 出 健壮 高 效 的 多 线程 代码 ， 只 需 
要 耐心 和 万 分 小 心 ! 


本 章 结 尾 我 们 给 出 编写 一 些 多 线程 代码 的 建议 (参见 补充 内 容 〉 。API 
的 其 他 方面 也 很 有 趣 。 如 果 需 要 更 多 信息 ， 请 在 Linux 系 统 上 输入 man 
-k pthread， 查 看 构成 整个 接口 的 超过 一 百 个 API。 但 是 ， 这 里 讨论 的 
基础 知识 应 该 让 你 能 够 构建 复杂 的 (并 且 希 望 是 正确 的 和 高 性 能 的 ) 
多 线程 程序 。 线 程 难 的 部 分 不 是 API， 而 是 如 何 构建 并 发 程序 的 玉手 还 
辑 。 请 继续 阅读 以 了 解 更 多 信息 。 











补充 : 线程 API 指 导 


当 你 使 用 POSIX 线 程 库 (或 者 实际 上 ， 任 何 线程 库 ) 来 构建 多 
线程 程序 时 ， 需 要 记 住 一 些小 而 重要 的 事情 : 


保持 简洁 。 最 重要 的 一 点 ， 线 程 之 间 的 锁 和 信号 的 代码 
应 该 尽 可 能 简洁 。 复 灯 的 线程 交互 容易 产生 缺陷。 


让 线程 交互 减 到 最 少 。 尺 量 减 少 线 程 之 间 的 交互 。 每 次 
交互 都 应 该 想 清 楚 ， 并 用 验证 过 的 、 正 确 的 方法 来 实现 
(很 多 方法 会 在 后 续 章 节 中 学 习 ) 。 


初始 化 锁 和 条 件 变量 。 未 初始 化 的 代码 有 时 工作 正常 ， 
有 时 失败 ， 会 产生 奇怪 的 结果 。 


检查 返回 值 。 当 然 ， 任 何 C 和 UNIX 的 程序 ， 都 应 该 检查 返 
回 值 ， 这 里 也 是 一 样 。 人 否则 会 导致 古怪 而 难以 理解 的 行 
为 ， 让 你 尖 叫 ， 或 者 痛 理 地 揪 自 己 的 头发 。 


注意 传 给 线程 的 参数 和 返回 值 。 具 体 来 说 ， 如 果 传 递 在 
栈 上 分 配 的 变量 的 引用 ， 可 能 就 是 在 犯错 误 。 


每 个 线程 都 有 上 自己 的 栈 。 类 似 于 上 一 条 ， 记 住 每 一 个 线 
程 都 有 自己 的 栈 。 因 此 ， 线 程 局 部 变量 应 该 是 线程 私有 
的 ， 其 他 线程 不 应 该 访问 。 线 程 之 间 共 享 数据 ， 值 要 在 
堆 (heap) 或 者 其 他 全 局 可 访问 的 位 置 。 


线程 之 间 总 是 通过 条 件 变量 发 送信 号 。 切 记 不 要 用 标记 
变量 来 同步 。 


多 查 手册 。 尤 其 是 Linux 的 pthread 手 册 ， 有 更 多 的 细 
节 、 更 丰富 的 内 容 。 请 仔细 阅读 ! 














[B89] “An Introduction to Programming with Threads” Andrew D. 
Birrell 


DEC Technical Report, January, 1989 


它 是 线程 编程 的 经 典 ， 但 内 容 较 陈 旧 。 不 过 ， 仍 然 值得 一 读 ， 而 且 是 
免费 的 。 


[B97] “Programming with POSIX Threads” David R. Butenhof 





Addison-Wesley, May 1997 
又 是 一 本 关于 编程 的 书 。 


[B+96] “PThreads Programming: A POSIX Standard for Better 
Multiprocessing” 





Dick Buttlar, Jacqueline Farrell, Bradford Nichols 0’” Reilly, 
September 1996 


0”Reilly 出 版 的 一 本 不 错 的 书 。 我 们 的 书架 当然 包含 了 这 家 公司 的 大 
量 书籍 ， 其 中 包括 一 些 关 于 Perl1、Python 和 JavaScript 的 优秀 产品 
(特别 是 Crockford 的 《JavaScript: The Good Parts”) 。 


[K+96] “Programming With Threads” 


Steve Kleiman, Devang Shah, Bart Smaalders Prentice Hall, 
January 1996 


这 可 能 是 这 个 领域 较 好 的 书籍 之 一 。 从 当地 图 书馆 借阅 ， 或 从 老 一 境 
程序 员 那 里 “ 偷 ” 来 读 。 认 真 地 说 ， 只 要 问 老 一 辈 程 序 员 借 的 话 ， 他 
们 会 借 给 你 的 ， 不 用 担心 。 


[xX+10] “Ad Hoc Synchronization Considered Harmful” 








Weiwei Xiong, Soyeon Park, Jiaqi Zhang, Yuanyuan Zhou, 
Zhiqiang Ma OSDI 2010,Vancouver, Canada 


本 文 展 示 了 看 似 简单 的 同步 代码 是 如 何 导致 大 量 错误 的 。 使 用 条 件 变 
量 并 正确 地 发 送信 号 ! 


[1]， 注意 我 们 在 这 里 使 用 了 包装 的 函数 。 有 具体 来 说 ， 我 们 调用 了 
Malloc()、Pthread join() 和 Pthread_create() ， 它 们 只 是 调用 了 与 
它们 命名 相似 的 小 写 版 本 ， 并 确保 函数 不 会 返回 任何 意外 。 


[2]， 幸 和 运 的 是 ， 编 译 髓 gcc 在 编译 这 样 的 代码 时 可 能 会 报警 ， 这 是 注 
意 编 译 器 警告 的 又 一 个 原因 。 


[3] 请 注意 ， 可 以 使 用 pthread cond initO (和 对 应 的 
pthread cond destroy( 调用 ) ， 而 不 是 使 用 静态 初始 化 程序 
PTHREAD ”COND _INITIALIZER。 听 起 来 像 是 工作 更 多 了 ? 是 的 。 


第 28 章 锁 


通过 对 并 发 的 介绍 ， 我 们 看 到 了 并 发 编程 的 一 个 最 基本 问题 : 我 们 和希 
望 原 子 式 执 行 一 系列 指令 ， 但 由 于 单 处 理 器 上 的 中 断 〈 或 者 多 个 线程 
在 多 处 理 器 上 并 发 执行 )， 我 们 做 不 到 。 本 章 介 绍 了 锁 (lock) ， 直 
接 解 决 这 一 问题 。 程 序 员 在 源 代码 中 加 锁 ， 放 在 临界 区 周围 ， 保 证 临 
界 区 能 够 像 单条 原子 指令 一 样 执行 。 


28. 1 锁 的 基本 思想 


举 个 例子 ， 假 设 临 界 区 像 这 样 ， 典 型 的 更 新 共享 变量 : 


balance = balance + 1; 


当然 ， 其 他 临界 区 也 是 可 能 的 ， 比 如 为 链表 增加 一 个 元 素 ， 或 对 共享 
结构 的 复杂 更 新 操作 。 为 了 使 用 锁 ， 我 们 给 临界 区 增加 了 这 样 一 些 代 
位: 

lock 七 mutex; // some globally-allocated lock 'mutex' 

LD Ce tele ays 


balance = balance + 1; 
unlock (&mutex); 
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锁 就 是 一 个 变量 ， 因 此 我 们 需要 声明 一 个 某 种 类 型 的 锁 变 量 (lock 
variable， 如 上 面 的 mutex) ， 才 能 使 用 。 这 个 锁 变 量 〈 简 称 锁 ) 保存 
了 锁 在 某 一 时 刻 的 状态 。 它 要 么 是 可 用 的 (available， 或 unlocked， 
或 free) ， 表 示 没 有 线程 持 有 锁 ， 要 么 是 被 占用 的 〈acquired， 或 
locked， 或 held) ， 表 示 有 一 个 线程 持 有 锁 ， 正 处 于 临界 区 。 我 们 也 
可 以 保存 其 他 的 信息 ， 比 如 持 有 锁 的 线程 ， 或 请 求 获 取 锁 的 线程 队 
列 ， 但 这 些 信 息 会 隐藏 起 来 ， 锁 的 使 用 者 不 会 发 现 。 








lock() 和 unlock (0 函数 的 语义 很 简单 。 调 用 lock 0 尝试 获取 锁 ， 如 果 
没有 其 他 线程 持 有 锁 〈 即 它 是 可 用 的 ) ， 该 线程 会 获得 锁 ， 进 入 临界 
区 。 这 个 线程 有 时 被 称 为 锁 的 持 有 者 〈owner ) 。 如 果 另 外 一 个 线程 对 
相同 的 锁 变 量 〈 本 例 中 的 mutex) 调用 lock() ， 因 为 锁 被 另 一 线程 持 
有 ， 该 调用 不 会 返回 。 这 样 ， 当 持 有 锁 的 线程 在 临界 区 时 ， 其 他 线程 
了 驶 无 法 进入 临界 区 。 


锁 的 持 有 者 一 旦 调用 unlock () ， 锁 束 变 成 可 用 了 。 如 果 没 有 其 他 等 待 
线程 〈 即 没有 其 他 线程 调用 过 lock 0 并 卡 在 那里 ) ， 锁 的 状态 就 变 成 
可 用 了 。 如 果 有 等 待 线程 〈 卡 在 lock (里) ， 其 中 一 个 会 〈 最 终 ) 注 
意 到 《或 收 到 通知 ) 锁 状 态 的 变化 ， 获 取 该 锁 ， 进 入 临界 区 。 


锁 为 程序 员 提 供 了 最 小 程度 的 调度 控制 。 我 们 把 线程 视 为 程序 员 创 建 
的 实体 ， 但 是 被 操作 系统 调度 ， 具 体 方式 由 操作 系统 选择 。 锁 让 程序 
员 获 得 一 些 控制 权 。 通 过 给 临界 区 加 锁 ， 可 以 保证 临界 区 内 只 有 一 个 
线程 活跃 。 锁 将 原本 由 操作 系统 调度 的 混乱 状态 变 得 更 为 可 控 。 

















28.2 Pthread 锁 


POSIX 库 将 锁 称 为 互 斥 量 (mutex) ， 因 为 它 被 用 来 提供 线程 之 间 的 互 
斥 。 即 当 一 个 线程 在 临界 区 ， 它 能 够 阻止 其 他 线程 进入 直到 本 线程 离 
开 临 界 区 。 因 此 ， 如 果 你 看 到 下 面 的 POSIX 线 程 代码 ， 应 该 理解 它 和 上 
面 的 代码 段 执行 相同 的 任务 〈 我 们 再 次 使 用 了 包装 函数 来 检查 获取 锁 
和 释放 锁 时 的 错误 ) 。 


pthread mutex t lock = PTHREAD MUTEX INITIALIZER; 

















Pthread mutex lock(&lock); // wrapper for pthread mutex lock() 
balance = balance + 1; 
Pthread mutex unlock(&lock); 
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你 可 能 还 会 注意 到 ，P0SIX 的 lock 和 unlock 函 数 会 传 入 一 个 变量 ， 因 为 
我 们 可 能 用 不 同 的 锁 来 保护 不 同 的 变量 。 这 样 可 以 增加 并 发 : 不同 于 
任何 临界 区 都 使 用 同一 个 大 锁 ( 粗 粒度 的 锁 策略 ) ， 通 常 大 家 会 用 不 
和 
粒度 的 方案 ) 。 


28.3 实现 一 个 锁 





我 们 已 经 从 程序 员 的 角度 ， 对 锁 如 何 工 作 有 了 一 定 的 理解 。 那 如 何 实 
现 一 个 锁 呢 ? 我 们 需要 什么 硬件 支持 ? 需要 什么 操作 系统 的 支持 ? 本 
章 下 面 的 内 容 将 解答 这 些 问题 。 


关键 问题 : 怎样 实现 一 个 锁 


如 何 构建 一 个 高 效 的 锁 ?” 高 效 的 锁 能 够 以 低 成 本 提供 互 斥 ， 
同时 能 够 实现 一 些 特性 ， 我 们 下 面 会 讨论 。 需 要 什么 硬件 文 
持 ? 什么 操作 系统 支持 ? 


我 们 需要 硬件 和 操作 系统 的 帮助 来 实现 一 个 可 用 的 锁 。 近 些 年 来 ， 各 
种 计算 机 体系 结构 的 指令 集 都 增加 了 一 些 不 同 的 硬件 原 语 ， 我 们 不 研 
完 这 些 指令 是 如 何 实现 的 《毕竟 ， 这 是 计算 机 体系 结构 课程 的 主 
题 )》 ， 只 研究 如 何 使 用 它们 来 实现 像 锁 这 样 的 互 斥 原 语 。 我 们 也 会 研 
完 操 作 系统 如 何 发 展 完善 ， 支 持 实现 成 熟 复杂 的 锁 库 。 





28.4 评价 锁 


在 实现 锁 之 前 ， 我 们 应 该 首先 明确 目标 ， 因 此 我 们 要 问 ， 如 何 评价 一 
种 锁 实 现 的 效果 。 为 了 评价 锁 是 否 能 工作 《〈 并 工作 得 好 ) ， 我 们 应 该 
先 设立 一 些 标准 。 第 一 是 锁 是 否 能 完成 它 的 基本 任务 ， 即 提供 互 斥 
(mutual exclusion) 。 最 基本 的 ， 锁 是 否 有 效 ， 能 够 阻止 多 个 线程 
进入 临界 区 ? 


第 二 是 公平 性 (fairness) 。 当 锁 可 用 时 ， 是 否 每 一 个 竞争 线程 有 公 
平 的 机 会 抢 到 锁 ?” 用 另 一 个 方式 来 看 这 个 问题 是 检查 更 极端 的 情况 : 
是 否 有 竞争 锁 的 线程 会 饿 死 (starve) ， 一 直 无 法 获得 锁 ? 


最 后 是 性 能 〈performance) ， 有 具体 来 说 ， 是 使 用 锁 之 后 增加 的 时 间 开 
销 。 有 几 种 场景 需要 考虑 。 一 种 是 没有 竞争 的 情况 ， 即 只 有 一 个 线程 
抢 锁 、 释 放 锁 的 开 文 如 何 ? 另外 一 种 是 一 个 CPU 上 多 个 线程 竞争 ， 性 能 
如 何 ? 最 后 一 种 是 多 个 CPU、 多 个 线程 竞争 时 的 性 能 。 通 过 比较 不 同 的 
场景 ， 我 们 能 够 更 好 地 理解 不 同 的 锁 技 术 对 性 能 的 影响 ， 下 面 会 进行 


介绍 。 











28.5 控制 中 断 


最 早 提供 的 互 斥 解决 方案 之 一 ， 就 是 在 临界 区 关闭 中 断 。 这 个 解决 方 
案 是 为 单 处 理 器 系统 开发 的 。 代 码 如 下 : 


void lock() { 
DisableInterrupts (); 
} 
void unlock() { 
EnableInterrupts (); 
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} 


假设 我 们 运行 在 这 样 一 个 单 处 理 器 系统 上 。 通 过 在 进入 临界 区 之 前 关 
闭 中 断 《 使 用 特殊 的 硬件 指令 ) ， 可 以 保证 临界 区 的 代码 不 会 被 中 
断 ， 从 而 原子 地 执行 。 结 束 之 后 ， 我 们 重新 打开 中 断 (同样 通过 硬件 
站 令 ) ， 程 序 正常 运行 。 


这 个 方法 的 主要 优点 就 是 简单 。 显 然 不 需要 费力 思考 就 能 弄 清楚 它 为 
什么 能 工作 。 没 有 中 断 ， 线 程 可 以 确信 它 的 代码 会 继续 执行 下 去 ， 不 
会 被 其 他 线程 干扰 。 


遗憾 的 是 ， 缺 点 很 多 。 首 先 ， 这 种 方法 要 求 我 们 允许 所 有 调用 线程 执 
行 特权 操作 《打开 关闭 中 断 》， 即 信任 这 种 机 制 不 会 被 滥用 。 众 所 周 
知 ， 如 果 我 们 必须 信任 任意 一 个 程序 ， 可 能 就 有 麻烦 了 。 这 里 ， 麻 烦 
表现 为 多 种 形式 : 第 一 ， 一 个 贫 下 的 程序 可 能 在 它 开 始 时 就 调用 
lock(，)， 从 而 独占 处 理 器 。 更 糟 的 情况 是 ， 和 恶 意 程序 调用 lock () 后 ， 
一 直 死 循环 。 后 一 种 情况 ， 系 统 无 法 重新 获得 控制 ， 只 能 重启 系统 。 
关闭 中 断 对 应 用 要 求 太 多 ， 不 太 适 合作 为 通用 的 同步 解决 方案 。 











第 二 ， 这 种 方案 不 支持 多 处 理 器 。 如 果 多 个 线程 运行 在 不 同 的 CPU 上 ， 
每 个 线程 都 试图 进入 同一 个 临界 区 ， 关 闭 中 断 也 没有 作用 。 线 程 可 以 
运行 在 其 他 处 理 器 上 ， 因 此 能 够 进入 临界 区 。 多 处 理 器 已 经 很 普遍 
了 ， 我 们 的 通用 解决 方案 需要 更 好 一 些 。 


第 三 ， 关 闭 中 断 导 致 中 断 丢 失 ， 可 能 会 导致 严重 的 系统 问题 。 假 如 磁 
盘 设备 完成 了 读 取 请 求 ， 但 CPU 错失 了 这 一 事实 ， 那 么 ， 操 作 系 统 如 何 
知道 去 唤醒 等 待 读 取 的 进程 ? 


最 后 一 个 不 太 重 要 的 原因 就 是 效率 低 。 与 正常 指令 执行 相 比 ， 现 代 CPU 
对 于 关闭 和 打开 中 断 的 代码 执行 得 较 慢 。 


基于 以 上 原因 ， 只 在 很 有 限 的 情况 下 用 关闭 中 断 来 实现 互 斥 原 语 。 例 
如 ， 在 茶 些 情况 下 操作 系统 本 身 会 采用 屏 责 中 断 的 方式 ， 保 证 访问 目 
己 数 据 结构 的 原子 性 ， 或 至 少 避 免 茶 些 复杂 的 中 断 处 理 情 况 。 这 种 用 
法 是 可 行 的 ， 因 为 在 操作 系统 内 部 不 存在 信任 问题 ， 它 总 是 信任 自己 
可 以 执行 特权 操作 。 



































补充 : DEKKER 算 法 和 PETERSON 算 法 


20 世 纪 60 年 代 ，Dijkstra 向 他 的 朋友 们 提出 了 并 发 问题 ， 他 
的 数学 家 朋友 Theodorus Jozef Dekker 想 出 了 一 个 解决 方 
法 。 不 同 于 我 们 讨论 的 需要 硬件 指令 和 操作 系统 支持 的 方 
法 ，Dekker 的 算法 (Dekker”s algorithm) 只 使 用 了 1load 和 
store (早期 的 硬件 上 ， 它 们 是 原子 的 )。 


Peterson 后 来 改进 了 Dekker 的 方法 [P81] 。 同 样 只 使 用 load 和 
store， 保 证 不 会 有 两 个 线程 同时 进入 临界 区 。 以 下 是 
Peterson 算 法 (Peterson”s algorithm， 针 对 两 个 线程 ) ， 
0 
么 的 ? 


i oh oe ke WB 
int turn; 





void init() { 
flag[0] = flag[1] = 0; // 1->threaq wants to grab lock 
turn = 0; // whose turn? (thread 0 or 1?) 


} 
void lock() { 


flag[self] = 1; // self: thread ID of caller 
turn = 1 - self; // make it other thread's turn 
while ((flag[l-self] == 1) && (turn == 1 - self)) 
; // spin-wait 
} 
void unlock() { 
flag[self] = 0; // simply undo your intent 
} 


一 段 时 间 以 来 ， 出 于 某 种 原因 ， 大 家 都 热衷 于 研究 不 依赖 硬 
件 文 持 的 锁 机 制 。 后 来 这 些 工 作 都 没有 太 多 意义 ， 因 为 只 需 
要 很 少 的 硬件 文 持 ， 实 现 锁 就 会 容易 很 多 《实际 在 多 处 理 需 
的 早期 ， 就 有 这 些 硬件 支持 ) 。 而 且 上 面 提 到 的 方法 无 法 运 
行 在 现代 硬件 《应 为 松散 内 存 一 致 性 模型 ) ， 导 致 它们 更 加 
没有 用 处 。 更 多 的 相关 研究 也 潭 没 在 历史 中 ……… 


28.6 测试 并 设置 指令 (原子 交换 ) 


因为 关闭 中 断 的 方法 无 法 工作 在 多 处 理 器 上 ， 所 以 系统 设计 者 开始 让 
人 硬件 文 持 锁 。 最 早 的 多 处 理 器 系统 ， 像 20 世 纪 60 年 代 早期 的 Burroughs 
已 经 有 这 些 支 持 。 今 天 所 有 的 系统 都 文 持 ， 甚 至 包括 单 
CPU 的 系统 。 


最 简单 的 硬件 支持 是 测试 并 设置 指令 ( test-and-set 
instruction) ， 也 叫 作 原子 交换 (atomic exchange) 。 为 了 理解 
test-and-set 如 何 工 作 ， 我 们 首先 实现 一 个 不 依赖 它 的 锁 ， 用 一 个 变 
量 标记 锁 是 否 被 持 有 。 


在 第 一 次 尝试 中 《〈 见 图 28. 1) ， 想 法 很 简单 : 用 一 个 变量 来 标志 锁 是 
侣 被 茶 些 线程 占用 。 第 一 个 线程 进入 临界 区 ， 调 用 lock() ， 检 查 标 志 
古人 否 为 1 (这 里 不 是 1) ， 然 后 设置 标志 为 1， 表 明 线 程 持 有 该 锁 。 结 束 
临界 区 时 ， 线 程 调 用 unlock ()， 清 除 标 志 ， 表 示 锁 未 被 持 有 。 








1 typedef struct lock t { int flag; } lock t; 
2 

3 void init(lock 七 *mutex) { 

4 // 0 -> lock is available, 1 -> held 

5 mutex->flag = 0; 


} 


void lock(lock 七 *mutex) { 








9 while (mutex->flag == 1) // TEST the flag 
10 ; // spin-wait (do nothing) 

站 入 mutex->flag = 1; // now SET it! 

工 2 } 

13 

14 void unlock (lock 七 *mutex) { 

15 mutex->flag = 0; 

16 } 


图 28. 1 第 一 次 尝试 : 简单 标志 

当 第 一 个 线程 正 处 于 临界 区 时 ， 如 果 另 一 个 线程 调用 lock()， 它 会 在 
while 循 环 中 自 旋 等 待 (spin-wait)， 直 到 第 一 个 线程 调用 unlock () 清 
空 标 志 。 然 后 等 待 的 线程 会 退出 while 和 循环， 设置 标志 ， 执 行 临 界 区 代 
位 。 


遗憾 的 是 ， 这 段 代码 有 两 个 问题 ， 正 确 性 和 性 能 。 这 个 正确 性 问题 在 
并 发 编程 中 很 第 见 。 假 设 代码 按照 表 28. 1 执行 ， 开 始 时 flag=0。 


表 28. 1 追踪 : 没有 互 斥 


Thread 1 Thread 2 


interrupt: switch to Thread 2 













nterrupnt ewiteh to Threadll 











flag = 1; // set flag to 1 (too!) 


从 这 种 交 瞪 执行 可 以 看 出 ， 通 过 适时 的 (不合时宜 的 ? ) 中 断 ， 我 们 
很 容易 构造 出 两 个 线程 都 将 标志 设置 为 1， 都 能 进入 临界 区 的 场景 。 这 


ee 
互 斥 。 


性 能 问题 〈 稍 后 会 有 更 多 讨论 ) 主要 是 线程 在 等 待 已 经 被 持 有 的 锁 
时 ， 采 用 了 自 旋 等 待 (spin-waiting) 的 技术 ， 就 是 不 停 地 检查 标志 
的 值 。 自 旋 等 竺 在 等 待 其 他 线程 释放 锁 的 时 候 会 浪费 时 间 。 尤 其 是 在 
单 处 理 器 上 ， 一 个 等 待 线 程 等 待 的 目标 线程 甚至 无 法 运行 (至 少 在 上 
A 0 
这 和 有 Y Jo 








28.7 实现 可 用 的 目 旋 锁 





尽管 上 面 例子 的 想法 很 好 ， 但 没有 硬件 的 支持 是 无 法 实现 的 。 和 幸运 的 
是 ， 一 些 系 统 提 供 了 这 一 指令 ， 文 持 基 于 这 种 概念 创建 简单 的 锁 。 这 
个 更 强大 的 指令 有 不 同 的 名 字 : 在 SPARC 上， 这 个 指令 叫 
ldstub (load/store unsigned byte， 加 载 / 保 存 无 符号 字 节 ) ; 在 
x86 上， 是 xchg (atomic exchange， 原子 交换 ) 指令 。 但 它们 基本 上 
在 不 同 的 平台 上 做 同样 的 事 ， 通 常 称 为 测试 并 设置 指令 (test-and- 
set ) 。 我 们 用 如 下 的 C 代 码 片段 来 定义 测试 并 设置 指令 做 了 什么 : 
1 int Testandset (int xold ptr, int new) { 

2 int old = *old ptr // fetch old value at old ptr 

3 *old ptr = new; // store 'new' into old ptr 
4 
5 


return old; // return the old value 


} 


测试 并 设置 指令 做 了 下 述 事 情 。 它 返回 old_ptr 指 向 的 旧 值 ， 同 时 更 新 
为 new 的 新 值 。 当 然 ， 关 键 是 这 些 代 人 码 是 原子 地 (atomically) 执行 。 
因为 既 可 以 测试 上 日 值 ， 又 可 以 设置 新 值 ， 所 以 我 们 把 这 条 指令 叫 作 
“测试 并 设置 ”。 这 一 条 指令 完全 可 以 实现 一 个 简单 的 自 旋 锁 (spin 
lock) ， 如 图 28. 2 所 示 。 或 者 你 可 以 先 尝 试 自 己 实现 ， 这 样 更 好 ! 

我 们 来 确保 理解 为 什么 这 个 锁 能 工作 。 首 先 假设 一 个 线程 在 运行 ， 调 
用 lockO ， 没 有 其 他 线程 持 有 锁 ， 所 以 flag 是 0。 当 调用 
TestAndSet (flag， 了 1) 方 法 ， 返 回 0， 线 程 会 跳出 while 和 循环， 获取 锁 。 


同时 也 会 原子 的 设置 flag 为 1， 标 志 锁 已 经 被 持 有 。 当 线程 离开 临界 
区 ， 调 用 unlock (将 flag 清 理 为 0。 


typedef struct lock 七 { 
int flag; 
} lock t; 


void init(lock t *lock) { 
// 0 indicates that lock is available, 1 that it is held 
lock->flag = 0; 

} 


POO DPP 
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void lock(lock t *lock) { 
while (TestAndSet (&lock->flag, 1) == 1) 
; // spin-wait (do nothing) 
} 


void unlock (lock 七 *lock) { 
lock->flag = 0; 





} 

















图 28. 2 ”利用 测试 并 设置 的 简单 自 旋 锐 


第 二 种 场景 是 ， 当 某 一 个 线程 已 经 持 有 锁 ( 即 flag 为 1 ) 。 本 线程 调用 
lock () ， 然 后 调用 TestAndSet (flag，1) ， 这 一 次 返回 1。 只 要 另 一 个 
线程 一 直 持 有 锁 ，TestAndSet () 会 重复 返回 1， 本 线程 会 一 直 自 旋 。 当 
flag 终 于 被 改 为 0， 本 线程 会 调用 TestAndSet 0) ， 返 回 0 并 且 原 子 地 设 
置 为 1， 从 而 获得 锁 ， 进 入 I 临 界 区 。 


将 测试 “test 旧 的 锁 值 )》 和 设置 〈set 新 的 值 ) 合并 为 一 个 原子 操作 之 























你 现在 可 能 也 理解 了 为 什么 这 种 锁 被 称 为 自 旋 锁 (spin lock) 。 这 是 
最 简单 的 一 种 锁 ， 一 直 自 旋 ， 利 用 CPU 周期 ， 直 到 锁 可 用 。 在 单 处 理 器 
上 ， 需 要 抢占 式 的 调度 器 (preemptive scheduler ， 即 不 断 通过 时 钟 
中 断 一 个 线程 ， 运 行 其 他 线程 ) 。 人 否则 ， 上 自 旋 锁 在 单 CPU 上 无 法 使 用 ， 
因为 一 个 自 旋 的 线程 永远 不 会 放弃 CPU。 


提示 : 从 恶意 调度 程序 的 角度 想 想 并 发 
四 


通过 这 个 例子 ， 你 可 能 会 明白 理解 并 发 执行 所 需 的 方法 。 你 
应 该 试 着 假装 自己 是 一 个 恶意 调度 程序 (malicious 


< 一 


scheduler ) ， 会 最 不 合 时 宜 地 中 断 线 程 ， 从 而 挫败 它们 在 构 
建 同 步 原 语 方面 的 微弱 尝试 。 你 是 多 么 坏 的 调度 程序 ! 虽然 
中 断 的 确切 顺序 也 许 未 必 会 发 生 ， 但 这 是 可 能 的 ， 我 们 只 需 
要 以 此 证 明 某 种 特定 的 方法 不 起 作用 。 恶 意思 考 可 能 会 有 
用 ! (至 少 有 时 候 有 用 。) 


28. 8 评价 自 旋 锁 


现在 可 以 按照 之 前 的 标准 来 评价 基本 的 自 旋 锁 了 。 锁 最 重要 的 一 点 是 
正确 性 (correctness) : 能 够 互 斥 吗 ? 答案 是 可 以 的 : 自 旋 锁 一 次 只 
允许 一 个 线程 进入 临界 区 。 因 此 ， 这 是 正确 的 锁 。 


下 一 个 标准 是 公平 性 〈fairness) 。 自 旋 锁 对 于 等 待 线程 的 公平 性 如 
何 呢 ? 能 够 保证 一 个 等 竺 线程 会 进入 临界 区 吗 ? 答案 是 自 旋 锁 不 提供 
任何 公平 性 保证 。 实 际 上 ， 自 旋 的 线程 在 竞争 条 件 下 可 能 会 永远 自 
旋 。 自 旋 锁 没有 公平 性 ， 可 能 会 导致 饿 死 。 


最 后 一 个 标准 是 性 能 (performance) 。 使 用 自 旋 锁 的 成 本 是 多 少 ? 为 
了 更 小 心地 分 析 ， 我 们 建议 考虑 几 种 不 同 的 情况 。 首 先 ， 考 虑 线程 在 
单 处 理 器 上 竞争 锁 的 情况 。 然 后 ， 考 虑 这 些 线程 跨 多 个 处 理 器 。 


对 于 自 旋 锁 ， 在 单 CPU 的 情况 下 ， 性 能 开销 相当 大 。 假 设 一 个 线程 持 有 
锁 进 入 临界 区 时 被 抢占 。 调 度 器 可 能 会 运行 其 他 每 一 个 线程 〈 假 设 有 
人 1 个 这 种 线程 ) 。 而 其 他 线程 都 在 竞争 锁 ， 都 会 在 放弃 CPU 之 前 ， 自 
旋 一 个 时 间 片 ， 浪 费 CPU 周 期 。 


但 是 ， 在 多 CPU 上 ， 自 旋 锁 性 能 不 错 〈 如 果 线 程 数 大 致 等 于 CPU 数 ) 。 
假设 线程 A 在 CPU 1， 线 程 B 在 CPU 2 竞争 同一 个 锁 。 线 程 A (CPU 1) 占 
有 锁 时 ， 线 程 B 竞 争 锁 就 会 自 旋 〈 在 CPU 2 上 ) 。 然 而 ， 临 界 区 一 般 都 
很 短 ， 因 此 很 快 锁 就 可 用 ， 然 后 线程 B 获 得 锁 。 目 旋 等 待 其 他 处 理 器 上 
的 锁 ， 并 没有 浪费 很 多 CPU 周期 ， 因 此 效果 不 错 。 














28.9 比较 并 交换 


革 些 系统 提供 了 另 一 个 硬件 原 语 ， 即 比较 并 交换 指令 〈SPARC 系 统 中 
compatre-and-swap，x86 系 统 是 compare-and-exchange) 。 图 28. 3 是 
条 指令 的 C 语 言 伪 代 码 。 


是 
到 


1 int CompareAndSwap (int *ptr, int expected, int new) { 
2 int actual = *ptr; 

3 if (actual == expected) 

4 *ptr = new; 

3 return actual; 

6 


} 





图 28. 3 ”比较 并 交换 


比较 并 交换 的 基本 思路 是 检测 ptr 指 向 的 值 是 否 和 expected 相 等 ;， 如果 
古 ， 更 新 ptr 所 指 的 值 为 新 值 。 人 否则 ， 什 么 也 不 做 。 不 论 哪 种 情况 ， 都 
返回 该 内 存 地 址 的 实际 值 ， 让 调用 者 能 够 知道 执行 是 否 成 功 。 


有 了 比较 并 交换 指令 ， 就 可 以 实现 一 个 锁 ， 类 似 于 用 测试 并 设置 那 
样 。 例 如 ， 我 们 只 要 用 下 面 的 代码 蔡 换 lock 0 函数 : 











下 void lock(lock 七 *lLook) { 

2 while (CompareAndSwap (&lock->flag, 0, 1) == 1) 
3 ; // spin 

4 } 


其 余 代码 和 上 面 测试 并 设置 的 例子 完全 一 样 。 代 码 工 作 的 方式 很 类 
似 ， 检 查 标志 是 否 为 0， 如 果 是 ， 原 子 地 交换 为 1， 从 而 获得 锁 。 锁 被 
持 有 时 ， 苋 争 锁 的 线程 会 自 旋 。 


如 果 你 想 看 看 如 何 创 建 建 C 可 调用 的 x86 版 本 的 比较 并 交换 ， 下 面 的 代 
码 段 可 能 有 用 〈 来 自 [S05] ) : 


下 char CompareAndSwap (int *ptr, int old, int new) { 
2 unsigned char ret; 

3 

4 // Note that sete sets a 'byte' not the word 
5 _asm volatile (人 

6 RN 

7 

8 


" cmpxchgl %2,%1\n" 
" sete $0\n" 


9 : "= 可 (ret) 六 "=m" (*ptr) 


10 ST (new “m (ptr)s av. (OLd) 
二 并 : "memory"); 
12 return ret; 


se: } 


最 后 ， 你 可 能 会 发 现 ， 比 较 并 交换 指令 比 测试 并 设置 更 强大 。 当 我 们 
在 将 来 简单 探讨 无 等 待 同步 (wait-free Synchronization ) [H91] 
时 ， 会 用 到 这 条 指令 的 强大 之 处 。 然 而 ， 如 果 只 用 它 实 现 一 个 简单 的 
自 旋 锁 ， 它 的 行为 等 价 于 上 面 分 析 的 上 自 旋 锁 。 


28. 10 ”链接 的 加 载 和 条 件 式 存储 指令 


一 些 平台 提供 了 实现 临界 区 的 一 对 指令 。 例 如 MIPS 架 构 LH93] 中 ， 链 接 
的 加 载 (load-linked) 和 条 件 式 存储 (store-conditional) 可 以 用 
来 配合 使 用 ， 实 现 其 他 并 发 结构 。 图 28. 4 是 这 些 指 令 的 C 语 言 伪 代码 。 
Alpha、PowerPC 和 ARM 都 提供 类 似 的 指令 [W09]。 


int LoadLinked (int *ptr) { 
return *ptr; 


} 


int StoreConditional (int *ptr, int value) { 
if (no one has updated *ptr since the LoadLinked to this address) { 

*ptr = value; 
return 1; // success! 

9 } else { 

10 return 0; // failed to update 

11 } 

12 } 


OOOOPRODP 


图 28. 4 ”链接 的 加 载 和 条 件 式 存储 


链接 的 加 载 指 令 和 典型 加 载 指 令 类 似 ， 都 是 从 内 存 中 取出 值 存 入 一 个 
寄存 器 。 关 键 区 别 来 自 条 件 式 存储 〈store-conditional) 指令 ， 只 有 
上 一 次 加 载 的 地 址 在 期 间 都 没有 更 新 时 ， 才 会 成 功 ，《〈 同 时 更 新 刚才 
链接 的 加 载 的 地 址 的 值 ) 。 成 功 时 ， 条 件 存 储 返 回 1， 并 将 ptr 指 的 值 
更 新 为 value。 失 败 时 ， 返 回 0， 并 且 不 会 更 新 值 。 


你 可 以 挑战 一 下 自己 ， 使 用 链接 的 加 载 和 条 件 式 存 储 来 实现 一 个 锁 。 
完成 之 后 ， 看 看 下 面 代码 提供 的 简单 解决 方案 。 试 一 下 ! 解决 方案 如 


图 28. 5 所 示 。 


lock ( 代码 是 唯一 有 趣 的 代码 。 首 先 ， 一 个 线程 目 旋 等 待 标志 被 设置 
为 0〈 因 此 表明 锁 没 有 被 保持 ) 。 一 旦 如 此 ， 线 程 党 试 通 过 条 件 存储 获 
取 锁 。 如 果 成 功 ， 则 线程 自动 将 标志 值 更 改 为 1， 从 而 可 以 进入 临界 
区 。 


return; // if set-it-to-l was a success: all done 
// otherwise: try it all over again 


于 void lock(lock t *lock) { 

之 while (1) { 

3 while (LoadLinked(&lock->flag) == 1) 

4 ; // spin until it's zero 

5 if (StoreConditional (&lock->flag, 1) == 1) 
6 

可 

8 


} 
9 } 


Hi void unlock (lock 七 *lock) { 
到 lock->flag = 0; 
L183 } 


图 28. 5 ”使 用 LL/SC 实 现 锁 


提示 : 代码 越 少 越 好 〈 劳 尔 定律 ) 


程序 员 倾 回 于 吹 咕 自己 使 用 大 量 的 代码 实现 某 功 能 。 这 样 做 
本 质 上 是 不 对 的 。 我 们 应 该 吹 嗪 以 很 少 的 代码 实现 给 定 的 任 
务 。 简 洁 的 代码 更 易 懂 ， 缺 陷 更 少 。 正 如 Hugh Lauer 在 讨论 
构建 一 个 飞行 员 操 作 系 统 时 说 : “如 果 给 同样 这 些 人 两 倍 的 
时 间 ， 他 们 可 以 只 用 一 半 的 代码 来 实现 ”[L81] 。 我 们 称 之 为 
劳 尔 定律 (Lauer”s Law) ， 很 值得 记 住 。 下 次 你 吹 咕 写 了 
多 少 代 码 来 完成 作业 时 ， 三 思 而 后 行 ， 或 者 更 好 的 做 法 是 ， 
回去 重 写 ， 让 代码 更 清晰 、 精 简 。 








请 注意 条 件 式 存储 失败 是 如 何 发 生 的 。 一 个 线程 调用 lock () ， 执 行 了 
链接 的 加 载 指 令 ， 返 回 0。 在 执行 条 件 式 存储 之 前 ， 中 断 产 生 了 ， 男 一 
个 线程 进入 lock 的 代码 ， 也 执行 链接 式 加 载 指 令 ， 同 样 返回 9。 现 在 ， 
两 个 线程 都 执行 了 链接 式 加 载 指令 ， 将 要 执行 条 件 存 储 。 重 点 是 只 有 
一 个 线程 能 够 成 功 更 新 标志 为 1， 从 而 获得 锁 ; 第 二 个 执行 条 件 存储 的 





线程 会 失败 〈 因 为 巡 一 个 线程 已 经 成 功 执行 了 条 件 更 新 ) ， 必 须 重 新 
尝试 获取 锁 。 


在 几 年 前 的 读 上 ， 一 位 本 科 生 同 学 David Capel 给 出 了 一 种 更 为 简洁 的 
实现 ， 献 给 那些 喜欢 布尔 条 件 短路 的 人 。 看 看 你 是 否 能 弄 清楚 为 什么 
它 是 等 价 的 。 当 然 它 更 短 ! 

void lock(lock t *lock) { 


I 

2 while (LoadLinked(&lock->flag) ||!StoreConditional (&lock->flag, 1)) 
3 2 1 BBL 
4 


28. 11 获取 并 增加 


最 后 一 个 硬件 原 语 是 获取 并 增加 (fetch-and-add〉 指 令 ， 它 能 原子 地 
返回 特定 地 址 的 旧 值 ， 并 且 让 该 值 自 增 一 。 获 取 并 增加 的 C 语 言 盆 代码 
如 下 : 


在 这 个 例子 中 ， 我 们 会 用 获取 并 增加 指令 ， 实 现 一 个 更 有 趣 的 ticket 
锁 ， 这 是 Mellor-Crummey 和 Michael] Scott[MS91] 提 出 的 。 图 28.6 是 
lock 和 unlock 的 代码 。 





1 int FetchAndAdd (int *ptr) { 

2 nt Old = *ptry 

3 *ptE = Od + 1» 

4 return old; 

3 } 

1 typedef struet Lock t{ 

2 int ticket; 

3 Et tn 

4 } lock ty 

5 

6 void lock init(lock 七 *lock) { 
7 lock->ticket = 0; 

8 lock->turn = O08 

9 } 

10 

下 void lock(lock t *lock) { 

12 int myturn = FetchAndAdd(&lock->ticket); 
13 while (lock->turn != myturn) 
14 i; // spin 

5 } 

16 


7 void unlock (lock 七 *lock) { 


18 FetchAndAdd (&lock->turn); 
19 } 


图 28. 6 ticket 锁 


不 是 用 一 个 值 ， 这 个 解决 方案 使 用 了 ticket 和 turn 变 量 来 构建 锁 。 基 
本 操作 也 很 简单 : 如 果 线 程 希望 获取 锁 ， 首 先 对 一 个 ticket 值 执行 一 
个 原子 的 获取 并 相 加 指令 。 这 个 值 作为 该 线程 的 “turn”“【〔 顺 位 ， 即 
myturn ) 。 根 据 全 局 共享 的 lock->turn 变 量 ， 当 某 一 个 线程 的 
(myturn == turn) 时 ， 则 轮 到 这 个 线程 进入 临界 区 。unlock 则 是 增 
加 turn， 从 而 下 一 个 等 待 线程 可 以 进入 临界 区 。 


不 同 于 之 前 的 方法 : 本 方法 能 够 保证 所 有 线程 都 能 抢 到 锁 。 只 要 一 个 
线程 获得 了 ticket 值 ， 它 最 终 会 被 调度 。 之 前 的 方法 则 不 会 保证 。 比 
如 基于 测试 并 设置 的 方法 ， 一 个 线程 有 可 能 一 直 自 旋 ， 即 使 其 他 线程 
在 获取 和 释放 锁 。 











28. 12 ” 自 旋 过 多 : 怎么 办 








基于 硬件 的 锁 简 单 〈“ 只 有 几 行 代码 ) 而 且 有 效 〈( 如 果 高 兴 ， 你 甚至 可 
以 写 一 些 代 码 来 验证 ) ， 这 也 是 任何 好 的 系统 或 者 代码 的 特点 。 但 
是 ， 某 些 场景 下 ， 这 些 解决 方案 会 效率 低下 。 以 两 个 线程 运行 在 单 处 
理 器 上 为 例 ， 当 一 个 线程 (线程 0) 持 有 锁 时 ， 被 中 断 。 第 二 个 线程 
en os 
旋 。 


然后 它 继续 上 自 旋 。 最 后 ， 时 钟 中 断 产生 ， 线 程 0 重 新 运行 ， 它 释放 锁 。 
最 后 (比如 下 次 它 运 行 时 ) ， 线 程 1 不 需要 继续 自 旋 了 ， 它 获取 了 锁 。 
因此 ， 类 似 的 场景 下 ， 一 个 线程 会 一 直 自 旋 检 查 一 个 不 会 改变 的 值 ， 
浪费 掉 整 个 时 间 片 ! 如 果 有 A 作 线程 去 竞争 一 个 锁 ， 情 况 会 更 糟糕 。 同 
样 的 场景 下 ， 会 浪费 人 1 个 时 间 片 ， 只 是 自 旋 并 等 待 一 个 线程 释放 该 
锁 。 因 此 ， 我 们 的 下 一 个 问题 是 : 








关键 问题 : 怎样 避免 自 旋 


如 何 让 锁 不 会 不 必要 地 自 旋 ， 浪 费 CPU 时 间 ? 





只 有 硬件 支持 是 不 够 的 。 我 们 还 需要 操作 系统 支持 ! 接 下 来 看 一 看 怎 
么 解决 这 一 问题 。 


28. 13 ”简单 方法 : 让 出 来 吧 ， 宝 贝 


硬件 支持 让 我 们 有 了 很 大 的 进展 : 我 们 已 经 实现 了 有 效 、 公 平 〈 通 过 
ticket 锁 ) 的 锁 。 但 是 ， 问 题 仍然 存在 : 如 果 临 界 区 的 线程 发 生 上 下 
文 切换 ， 其 他 线程 只 能 一 直上 自 旋 ， 等 待 被 中 断 的 〈《 持 有 锁 的 ) 进程 重 
新 运行 。 有 什么 好 办 法 ? 


第 一 种 简单 友好 的 方法 就 是 ， 在 要 上 自 旋 的 时 候 ， 放 弃 CPU。 正 如 Al 
Davis 说 的 “让 出 来 吧 ， 宝 贝 ! ”[D91] 。 图 28. 7 展示 了 这 种 方法 。 





1 void init() { 

2 fliag = 0 

3 } 

4 

5 void lock() { 

6 while (TestAndSet (&flag, 1) == 1) 
7 yield(); // give up the CPU 
8 


} 


Ke 


10 void unlock() f{ 
11 flag = 0; 
下 2 } 


图 28. 7 测试 并 设置 和 让 出 实现 的 锁 


在 这 种 方法 中 ， 我 们 假定 操作 系统 提供 原 语 yield(0) ， 线 程 可 以 调用 它 
主动 放弃 CPU， 让 其 他 线程 运行 。 线 程 可 以 处 于 3 种 状态 之 一 ( 运 
行 、 就 绪 和 阻塞 ) 。yield0 系统 调用 能 够 让 运行 (running) 态 变 为 
就 绪 (ready) 态 ， 从 而 允许 其 他 线程 运行 。 因 此 ， 让 出 线程 本 质 上 取 
消 调 度 (deschedules) 了 它 自 己 。 


考虑 在 单 CPU 上 运行 两 个 线程 。 在 这 个 例子 中 ， 基 于 yield 的 方法 十 分 
有 效 。 一 个 线程 调用 lock 0 ， 发 现 锁 被 占用 时 ， 让 出 CPU， 另 外 一 个 线 











于。 


现在 来 考虑 许多 线程 〈 例 如 100 个 ) 反复 竞争 一 把 锁 的 情况 。 在 这 种 情 
况 下 ， 一 个 线程 持 有 锁 ， 在 释放 锁 之 前 被 抢占 ， 其 他 99 个 线程 分 别 调 
用 lockO ， 发 现 锁 被 抢占 ， 然 后 让 出 CPU。 假 定 采 用 某 种 轮转 调度 程 
序 ， 这 99 个 线程 会 一 直 处 于 运行 一 让 出 这 种 模式 ， 直 到 持 有 锁 的 线程 
再 次 运行 。 虽 然 比 原来 的 浪费 99 个 时 间 片 的 自 旋 方 案 要 好 ， 但 这 种 方 
法 仍然 成 本 很 高 ， 上 下 文 切换 的 成 本 是 实 实在 在 的 ， 因 此 浪费 很 大 。 


更 糟 的 是 ， 我 们 还 没有 考虑 钱 死 的 问题 。 一 个 线程 可 能 一 直 处 于 让 出 
的 循环 ， 而 其 他 线程 反复 进出 临界 区 。 很 显然 ， 我 们 需要 一 种 方法 来 
解决 这 个 问题 。 








28. 14 使 用 队列 : 休眠 替代 自 旋 





前 面 一 些 方法 的 真正 问题 是 存在 太 多 的 偶然 性 。 调 度 程序 决定 如 何 调 
度 。 如 果 调 度 不 合理 ， 线 程 或 者 一 直 自 旋 (第 一 种 方法 ) ， 或 者 立刻 
让 出 CPU (第 二 种 方法 ) 。 无 论 哪 种 方法 ， 都 可 能 造成 浪费 ， 也 能 防止 
饼 死 。 


因此 ， 我 们 必须 显 式 地 施加 某 种 控制 ， 决 定 锁 释 放 时 ， 谁 能 抢 到 锁 。 
为 了 做 到 这 一 点 ， 我 们 需要 操作 系统 的 更 多 支持， 并 需要 一 个 队列 来 
保存 等 待 锁 的 线程 。 


简单 起 见 ， 我 们 利用 Solaris 提 供 的 支持 ， 它 提供 了 两 个 调用 : park 0 
能 够 让 调用 线程 休眠 ，unpark (threadID) 则 会 唤醒 threadID 标 识 的 线 
程 。 可 以 用 这 两 个 调用 来 实现 锁 ， 让 调用 者 在 获取 不 到 锁 时 睡眠 ， 奉 
I 
可 能 用 法 。 


里 typedef struct lock 七 { 

2 int flag 

3 int guard 

4 Gueue 七 *q 

5 } lock t 

6 

7 void lock init(lock 七 *m) { 


8 m->flag = 0; 
m->guard = 0; 


Ke 





10 queue init (m->q); 

ls } 

让 

13 void lock(lock 七 *m) { 

14 while (TestAndSet (&m->guard, 1) == 1) 
下 有 ; //acquire guard lock by spinning 
主治 if (m->flag == 0) { 

1]:7 m->flag = 1; // lock is acquired 
18 m->guard = 0; 

19 } else { 

20 queue add(m->q, gettid()); 

21 m->guard = 0; 

这 次 park(); 

23 } 

24 } 

25 

26 void unlock (lock 七 *m) { 

2 while (TestAndSet (&m->guard, 1) == 1) 
28 ; //acquire guard lock by spinning 
29 if (queue empty (m->q)) 

30 m->flag = 0; // let go of lock; no one wants it 
3 二 else 

32 unpark (queue remove(m->q)); // hold lock (for next thread!) 
33. m->guard = 0; 

34 } 





图 28. 8 ”使 用 队列 ， 测 试 并 设置 、 让 出 和 唤醒 的 锁 


在 这 个 例子 中 ， 我 们 做 了 两 件 有 趣 的 事 。 首 先 ， 我 们 将 之 前 的 测试 并 
设置 和 等 待 队列 结合 ， 实 现 了 一 个 更 高 性 能 的 锁 。 其 次 ， 我 们 通过 队 
列 来 控制 谁 会 获得 锁 ， 避 免 狐 死 。 


你 可 能 注意 到 ，guard 基 本 上 起 到 了 自 旋 锁 的 作用 ， 围 经 着 flag 和 队列 
操作 。 因 此 ， 这 个 方法 并 没有 完全 避免 自 旋 等 待 。 线 程 在 获取 锁 或 者 
释放 锁 时 可 能 被 中 断 ， 从 而 导致 其 他 线程 自 旋 等 待 。 但 是 ， 这 个 上 自 放 
等 待 时 间 是 很 有 限 的 《不 是 用 户 定义 的 临界 区 ， 只 是 在 lock 和 unlock 
代码 中 的 几 个 指令 ) ， 因 此 ， 这 种 方法 也 许 是 合理 的 。 


第 二 点 ， 你 可 能 注意 到 在 lock (0) 函数 中 ， 如 果 线 程 不 能 获取 锁 〈 它 已 
被 持 有 ) ， 线 程 会 把 自己 加 入 队列 (通过 调用 gettid0 获得 当前 的 线 
程 ID) ， 将 guard 设 置 为 0， 然 后 让 出 CPU。 留 给 读者 一 个 问题 : 如 果 我 
们 在 parkO 之 后 ， 才 把 guard 设 置 为 0 释放 锁 ， 会 发 生 什 么 呢 ? 提示 一 
下 ， 这 是 有 问题 的 。 


你 还 可 能 注意 到 了 很 有 趣 一 点 ， 当 要 唤醒 另 一 个 线程 时 ，flag 并 没有 
设置 为 0。 为 什么 呢 ? 其 实 这 不 是 错 ， 而 是 必须 的 ! 线程 被 唤醒 时 ， 就 





像 是 从 park (调用 返回 。 但是， 此 时 它 没 有 持 有 guard， 所 以 也 不 能 将 
flag 设 置 为 !。 因 此 ， 我 们 就 直接 把 锁 从 释放 的 线程 传递 给 下 一 个 获得 
锁 的 线程 ， 期 间 flag 不 必 设 置 为 0。 


最 后 ， 你 可 能 注意 到 解决 方案 中 的 竞争 条 件 ， 就 在 park() 调用 之 前 。 
如 果 不 凑巧 ， 一 个 线程 将 要 park， 假 定 它 应 该 睡 到 锁 可 用 时 。 这 时 切 
换 到 男 一 个 线程 (比如 持 有 和 锁 的 线程 》， 这 可 能 会 导致 环 烦 。 比 如 ， 
如 果 该 线程 随后 释放 了 锁 。 接 下 来 第 一 个 线程 的 park 会 永远 睡 下 去 
(可 能 ) 。 这 种 问题 有 时 称 为 唤醒 /等 待 竞争 〈wakeup/waiting 
race) 。 为 了 避免 这 种 情况 ， 我 们 需要 额外 的 工作 。 


Solaris 通 过 增加 了 第 三 个 系统 调用 separk 0) 来 解决 这 一 问题 。 通 过 
setpark () ， 一 个 线程 表明 自己 马上 要 park。 如 果 刚 好 另 一 个 线程 被 调 
度 ， 并 且 调 用 了 unpark， 那 么 后 续 的 park 调 用 就 会 直接 人 返回， 而 不 是 
一 直 睡 眠 。1lock 0 调用 可 以 做 一 点 小 修改 : 





于 queue adqd(m->q, gettid()); 
2 setpark(); // new code 
3 m->guard = 0; 


男 外 一 种 方案 就 是 将 guard 传 入 内 核 。 在 这 种 情况 下 ， 内 核能 够 采取 预 
防 措施 ， 保 证 原子 地 释放 锁 ， 把 运行 线程 移出 队列 。 





28. 15 不 同 操作 系统 ， 不 同 实现 


目前 我 们 看 到 ， 为 了 构建 更 有 效率 的 锁 ， 一 个 操作 系统 提供 的 一 种 文 
持 。 其 他 操作 系统 也 提供 了 类 似 的 支持 ， 但 细节 不 同 。 


例如 ，Linux 提 供 了 futex， 它 类 似 于 Solaris 的 接口 ， 但 提供 了 更 多 内 
核 功 能 。 有 具体 来 说 ， 每 个 futex 都 关联 一 个 特定 的 物理 内 存 位置 ， 也 有 
一 个 事先 建 好 的 内 核 队列 。 调 用 者 通过 futex 调 用 《〈 见 下 面 的 描述 ) 来 
睡眠 或 者 唤醒 。 


具体 来 说 ， 有 两 个 调用 。 调 用 futex_wait(address，expected) 时 ， 如 
果 address 处 的 值 等 于 expected， 就 会 让 调 线程 睡眠 。 人 否则 ， 调 用 立刻 





返回 。 调 用 futex wake (address) 唤醒 等 待 队 列 中 的 一 个 线程 。 图 28. 9 
是 Linux 环 境 下 的 例子 。 

















void mutex lock (int *mutex) { 

之 TN 全 

3 /* Bit 31 was clear, we got the mutex (this is the fastpath) */ 
4 if (atomic bit test set (mutex, 31) == 0) 

3 returny 

6 atomic increment (mutex); 

7 while (1) { 

8 if (atomic bit test set (mutex, 31) == 0) { 

9 atomic decrement (mutex); 

10 return; 

于 } 

12 /* We have to wait now. First make sure the futex valu 
3 we are monitoring is truly negative (i.e. locked). */ 
14 V = *mutex; 

15 if (v >= 0) 

16 continue; 

Ly futex wait (mutex, v); 

18 } 

19 } 

20 

21 void mutex unlock (int *mutex) { 

22 /* Adding 0x80000000 to the counter results in 0 if and only if 
23 there are not other interested threads */ 

24 if (atomic add zero (mutex, 0x80000000)) 

25 Peturny 

26 

27 /* There are other threads waiting for this mutex, 

28 wake one of them up. */ 

29 futex wake (mutex); 


图 28. 9 ”基于 Linux 的 futex 锁 


这 上段 代码 来 自 nptl 库 (gnu libc 库 的 一 部 分 ) [L09] 中 
lowlevellock. h， 它 很 有 趣 。 基 本 上 ， 它 利用 一 个 整数 ， 同 时 记录 锁 
是 否 被 持 有 《整数 的 最 高 位 ) ， 以 及 等 待 者 的 个 数 〈 整 数 的 其 余 所 有 
位 ) 。 因 此 ， 如 果 锁 是 负 的 ， 它 就 被 持 有 【因为 最 高 位 被 设置 ， 该 位 
决定 了 整数 的 符号 ) 。 这 段 代 码 的 有 趣 之 处 还 在 于 ， 它 展示 了 如 何 优 
化 常见 的 情况 ， 即 没有 竞争 时 : 只 有 一 个 线程 获取 和 释放 锁 ， 所 做 的 
工作 很 少 ( 获 取 锁 时 测试 和 设置 的 原子 位 运算 ,释放 锁 时 原子 的 加 
0 “真实 世界 ”的 锁 的 其 余部 分 ， 是 否 能 理解 其 
工作 原理 。 


28. 16 ”两 阶段 锁 


最 后 一 点 : Linux 采 用 的 是 一 种 古老 的 锁 方案 ， 多 年 来 不 断 被 采用 ， 可 
以 追溯 到 20 世 纪 60 年 代 早 期 的 Dahm 锁 [M82] ， 现 在 也 称 为 两 阶段 锁 
(two-phase lock) 。 两 阶段 锁 意识 到 自 旋 可 能 很 有 用 ， 尤 其 是 在 很 
快 就 要 释放 锁 的 场景 。 因此， 两 阶段 锁 的 第 一 阶段 会 先 自 旋 一 段 时 
间 ， 和 希望 它 可 以 获取 锁 。 


但 是 ， 如 果 第 一 个 自 旋 阶段 没有 获得 锁 ， 第 二 阶段 调用 者 会 睡眠 ， 直 
到 锁 可 用 。 上 文 的 Linux 锁 束 是 这 种 锁 ， 不 过 只 目 旋 一 次 ; 更 第 见 的 方 
式 是 在 循环 中 目 旋 固定 的 次 数 ， 然 后 使 用 futex 睡 虐 。 


两 阶段 锁 是 又 一 个 杂 合 (hybrid) 方案 的 例子 ， 即 结合 两 种 好 想法 得 
到 更 好 的 想法 。 当 然 ， 硬 件 环境 、 线 程 数 、 其 他 负载 等 这 些 因 素 ， 都 
会 影响 锁 的 效果 。 事 情 总 是 这 样 ， 让 单个 通用 目标 的 锁 ， 在 所 有 可 能 
的 场景 下 都 很 好 ， 这 和 是 巨大 的 挑 成 。 








28. 17 小 结 


以 上 的 方法 展示 了 如 今 真实 的 锁 是 如 何 实现 的 : 一 些 硬件 支持 (更 加 
强大 的 指令 )》 和 一 些 操作 系统 支持 〈 例 如 Solaris 的 park() 和 unpark () 
原 语 ，Linux 的 futex) 。 当 然 ， 细 节 有 所 不 同 ， 执 行 这 些 锁 操作 的 代 
人 码 通 和 常 是 高 度 优化 的 。 读 者 可 以 查看 Solaris 或 者 Linux 的 代码 以 了 解 
更 多 信息 LL09，S09] 。David 等 人 关于 现代 多 处 理 器 的 锁 策 略 的 对 比 也 
值得 一 看 [D+13]。 
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[S05] “Guide to porting from Solaris to Linux on x86” Ajay 
Sood, April 29，2005 


[S09] “OpenSolaris Thread Library” 


这 看 起 来 很 有 趣 ， 但 是 谁 知道 Oracle 现 在 拥有 的 Sun 将 会 发 生 什 么 。 感 
谢 Mike Swift 推 荐 的 代码 。 


[WO09] “Load-Link, Store-Conditional” 


Wikipedia entry on said topic, as of October 22，2009 


你 能 相信 我 们 引用 了 维基 百科 吗 ? 很 懒 ， 不 是 吗 ? 但 是 ， 我 们 首先 在 
那里 找到 了 这 些 信 息 ， 感 觉 不 对 而 没有 引用 它 。 而 且 ， 这 里 甚至 列 出 
了 不 同 架 构 的 指令 : 1dl 1/stl c 和 1dq l/stq c (Alpha ) ， 
lwarx/stwcx (PowerPC) ，11/sc (MIPS) 和 ldrex/strex (ARM 版 本 6 
及 以 上 ) 。 实 际 上 维基 百科 很 神奇 ， 所 以 不 要 那么 苛刻 ， 好 吗 ? 


[WG00]“The SPARC Architecture Manual: Version 9” David L. 
Weaver and Tom Germond, September 2000 SPARC International, 
San Jose, California 


有 关 Sparc 原 子 操作 的 更 多 详细 信息 请 参阅 相关 网 站 。 








作业 


程序 x86. py 允许 你 看 到 不 同 的 线程 交 蔡 如 何 导致 或 避免 竞争 条 件 。 请 
参阅 README 文 件 ， 了 解 程序 如 何 工作 及 其 基本 输入 的 详细 信息 ， 然 后 
回答 以 下 问题 。 


问题 


1. 首先 用 标志 -p flag. s 运 行 x86. py。 该 代码 遂 过 一 个 内 存 标志 “ 实 
现 ” 锁 。 你 能 理解 汇编 代码 试图 做 什么 吗 ? 


2. 使 用 默认 值 运行 时 ，flag. s 是 否 按 预期 工作 ? 


它 会 产生 正确 的 结果 吗 ? 使 用 -M 和 -R 标 志 跟 踪 变 量 和 寄存 器 (并 打开 - 
c 查 看 它们 的 值 ) 。 你 能 预测 代码 运行 时 标志 最 终 会 变 成 什么 值 吗 ? 


3. 使 用 -a 标志 更 改 寄存 器 %bx 的 值 ( 例 如， 如 果 只 运行 两 个 线程 ， 就 
用 -a bx = 2，bx = 2) 。 代 码 是 做 什么 的 ?对 这 段 代码 问 上 面 的 问 
题 ， 答 案 如 何 ? 














4， 对 每 个 线程 将 bx 设置 为 高 值 ， 然 后 使 用 -i 标志 生成 不 同 的 中 断 频 
率 。 什 么 值 导致 产生 不 好 的 结果 ?什么 值 导致 产生 良好 的 结果 ? 


5. 现在 让 我 们 看 看 程序 test-and-set. s。 首 先 ， 和 尝试 理解 使 用 xchg 指 
令 构 建 简单 锁 原 语 的 代码 。 获 取 锁 怎么 写 ? 释放 锁 如 何 写 ? 


6. 现在 运行 代码 ， 再 次 更 改 中 断 间隔 〈-i) 的 值 ， 并 确保 循环 多 次 。 
代码 是 否 总 能 按 预期 工作 ? 有 时 会 导致 CPU 使 用 率 不 高 吗 ? 如 何 量化 
呢 ? 


7. 使 用 -标志 生成 锁 相 关 代码 的 特定 测试 。 例 如 ， 执 行 一 个 测试 计 
划 ， 在 第 一 个 线程 中 获取 锁 ， 但 随后 答 试 在 第 二 个 线程 中 获取 锁 。 正 
确 的 事情 发 生 了 吗 ? 你 还 应 该 测试 什么 ? 


8. 现在 让 我 们 看 看 peterson. s 中 的 代码 ， 它 实现 了 Person 算 法 (在 文 
中 的 补充 栏 中 提 到 ) 。 研 究 这 些 代 码 ， 看 看 你 能 否 理解 它 。 


9. 现在 用 不 同 的 -i 值 运行 代码 。 你 看 到 了 什么 样 的 不 同行 为 ? 


10， 你 能 控制 调度 〈 带 -P 标 志 ) 来 “证 明 ” 代 码 有 效 吗 ?你 应 该 展示 
哪些 不 同情 况 ? 考虑 互 斥 和 避免 死 锁 。 


11. 现在 研究 ticket.s 中 ticket 锁 的 代码 。 它 是 否 与 本 章 中 的 代码 相 
符 ? 


12. 现在 运行 代码 ， 使 用 以 下 标志 : -a bx=1000，bx=1000 (此 标志 设 
置 每 个 线程 循环 1000 次 ) 。 看 看 随 着 时 间 的 推移 发 生 了 什么 ， 线 程 是 
否 花 了 很 多 时 间 自 旋 等 待 锁 ? 


13. 添加 更 多 的 线程 ， 代 码 表现 如 何 ? 


14. 现在 来 看 yield. s， 其 中 我 们 假设 yield 指 令 能 够 使 一 个 线程 将 CPU 
的 控制 权 交 给 另 一 个 线程 〈 实 际 上 ， 这 会 是 一 个 0S 原 语 ， 但 为 了 简化 
仿真 ， 我 们 假设 有 一 个 指令 可 以 完成 任务 ) 。 找 到 一 个 场景 ， 其 中 
test-and-set. s 浪 费 周期 旋转 ， 但 yield. s 不 会 。 节 省 了 多 少 指令 ? 这 
些 节 省 在 什么 情况 下 会 出 现 ? 


15. 最 后 来 看 test-and-test-and-set.s。 这 把 锁 有 什么 作用 ? 与 
test-and-set. s 相 比 ， 它 实现 了 什么 样 的 优点 ? 

















第 29 章 ”基于 锁 的 并 发 数据 结构 


在 结束 锁 的 讨论 之 前 ， 我 们 先 讨 论 如 何在 常见 数据 结构 中 使 用 锁 。 通 
过 锁 可 以 使 数据 结构 线程 安全 (thread safe) 。 当 然 ， 具 体 如 何 加 锁 
决定 了 该 数据 结构 的 正确 性 和 效率 ? 因此， 我 们 的 挑战 是 : 


关键 问题 ， 如 何 给 数据 结构 加 锁 ? 


对 于 特定 数据 结构 ， 如 何 加 锁 才 能 让 该 结构 功能 正确 ? 进 一 
步 ， 如 何 对 该 数据 结构 加 锁 ， 能 够 保证 高 性 能 ， 让 许多 线程 
同时 访问 该 结构 ， 即 并 发 访问 (concurrently) ? 





当然 ， 我 们 很 难 介 绍 所 有 的 数据 结构 ， 或 实现 并 发 的 所 有 方法 ， 因 为 
这 是 一 个 研究 多 年 的 议题 ， 己 经 发 表 了 数 以 干 计 的 相关 论文 。 因 此 ， 
我 们 希望 能 够 提供 这 类 思考 方式 的 足够 介绍 ， 同 时 提供 一 些 好 的 资 
料 ， 供 你 自己 进一步 研究 。 我 们 发 现 ，Moir 和 Shavit 的 调查 [MS04] 就 
是 很 好 的 资料 。 


29.1 并 发 计数 器 


计数 器 是 最 简单 的 一 种 数据 结构 ， 使 用 广泛 而 且 接 口 简 单 。 图 29. 1 中 
定义 了 一 个 非 并 发 的 计数 器 。 


typedef struct counter 七 { 
int value; 
} counter 七， 


Void init(eCounter 七 *e) { 
c->value = 0; 


由 
2 
3 
4 
3 
6 
7 } 
8 


9 void increment (counter t *c) { 


iQ c->valuet+; 

11 } 

12 

13 void decrement (counter t *c) { 
14 c->value--; 

15 } 

16 

1.7 int get (counter t *e) { 

18 return c->value; 

19 } 





图 29. 1 无 锁 的 计数 器 


简单 但 无 法 扩展 


你 可 以 看 到 ， 没 有 同步 机 制 的 计数 器 很 简单 ， 只 需要 很 少 代 码 就 能 实 
现 。 现 在 我 们 的 下 一 个 挑战 是 : 如 何 让 这 段 代 码 线程 安全 (thread 
safe) ? 图 29. 2 展示 了 我 们 的 做 法 。 








1 typedef struct counter 七 { 

和 2 主攻 value; 

3 pthread mutex t lock; 

4 } counter 七 7 

5 

6 void init (counter 七 *c) { 

也 c->value = 0; 

8 Pthread mutex init (&c->lock, NULL); 
9 } 

1 

下 1 void increment (counter t *c) 

12 Pthread mutex lock(&c->lock); 
13 Cc->valuet++; 

14 Pthread mutex unlock(&c->lock); 
15 } 

下 和 

下 水 void decrement (counter 七 *c) 

18 Pthread mutex lock(&c->lock); 
19 Cc->value--—} 

20 Pthread mutex unlock(&c->lock); 
21 } 

区 

23 int get (counter t *c) { 

24 Pthread mutex lock(&c->lock); 
25 int rc = c->value; 

26 Pthread mutex unlock(&c->lock); 
27 return re; 


图 29. 2 有 锁 的 计数 器 


这 个 并 发 计数 器 简单 、 正 确 。 实 际 上 ， 它 遵循 了 最 简单 、 最 基本 的 并 
发 数据 结构 中 和 靖 见 的 数据 模式 : 它 只 是 加 了 一 把 锁 ， 在 调用 函数 操作 
该 数据 结构 时 获取 锁 ， 从 调用 返回 时 释放 锁 。 这 种 方式 类 似 基于 观察 
者 (monitor) [BH73] 的 数据 结构 ， 在 调用 、 退 出 对 象 方法 时 ， 会 自动 
获取 锁 、 释 放 锁 。 


现在 ， 有 了 一 个 并 发 数据 结构 ， 问 题 可 能 就 是 性 能 了 。 如 果 这 个 结构 
导致 运行 速度 太 慢 ， 那 么 除了 简单 加 锁 ， 还 需要 进行 优化 。 如 果 需 要 
这 种 优化 ， 那 么 本 章 的 余下 部 分 将 进行 探讨 。 请 注意 ， 如 果 数 据 结构 
导致 的 运行 速度 不 是 太 慢 ， 那 就 没事 ! 如 果 简 单 的 方案 就 能 工作 ， 就 
不 需要 精巧 的 设计 。 


为 了 理解 简单 方法 的 性 能 成 本 ， 我 们 运行 一 个 基准 测试 ， 每 个 线程 更 
新 同一 个 共享 计数 器 固定 次 数 ， 然 后 我 们 改变 线程 数 。 图 29. 3 给 出 了 
运行 1 个 线程 到 4 个 线程 的 总 耗 时 ， 其 中 每 个 线程 更 新 100 万 次 计数 器 。 
本 实验 是 在 4 核 Intel 2. 7GHz i5 CPU 的 iMac 上 运行 。 通 过 增加 CPU， 我 
们 希望 单位 时 间 能 够 完成 更 多 的 任务 。 


从 图 29. 3 上 方 的 曲线 《〈 标 为 “精确 ”) 可 以 看 出 ， 同 步 的 计数 器 扩展 
性 不 好 。 单 线程 完成 100 万 次 更 新 只 需要 很 短 的 时 间 (大 约 0. 03s) ， 
而 两 个 线程 并 发 执行 ， 每 个 更 新 100 万 次 ， 性 能 下 降 很 多 (超过 
5s! ) 。 线 程 更 多 时 ， 人 性 能 更 兰 。 


























时 间 (s) 





线程 


图 29. 3 ”传统 计数 器 与 懒惰 计数 器 








理想 情况 下 ， 你 会 看 到 多 处 理 上 运行 的 多 线程 就 像 单 线程 一 样 快 。 达 
到 这 种 状态 称 为 完美 扩展 (perfect scaling) 。 虽 然 总 工作 量 增多 ， 
但 是 并 行 执 行 后 ， 完 成 任务 的 时 间 并 没有 增加 。 





可 扩展 的 计数 








令 人 吃惊 的 是 ， 关 于 如 何 实现 可 扩展 的 计数 器 ， 研 究 人 员 已 经 研究 了 
多 年 [MS04] 。 更 令 人 吃惊 的 是 ， 最 近 的 操作 系统 性 能 分 析 研 究 [B+10] 
表明 ， 可 扩展 的 计数 器 很 重要 。 没 有 可 扩展 的 计数 ， 一 些 运行 在 Linux 
上 的 工作 在 多 核 机 器 上 将 遇 到 严重 的 扩展 性 问题 。 


尽管 人 们 已 经 开发 了 多 种 技术 来 解决 这 一 问题 ， 我 们 将 介绍 一 种 特定 
的 方法 。 这 个 方法 是 最 近 的 研究 提出 的 ， 称 为 懒惰 计数 器 (sloppy 
counter) [B+10j]。 


懒惰 计数 器 通过 多 个 局 部 计数 器 和 一 个 全 局 计数 器 来 实现 一 个 逻辑 计 
数 器 ， 其 中 每 个 CPU 核 心 有 一 个 局 部 计数 器 。 具 体 来 说 ， 在 4 个 CPU 的 机 
器 上 ， 有 4 个 局 部 计数 器 和 1 个 全 局 计数 器 。 除 了 这 些 计数 器 ， 还 有 
锁 : 每 个 局 部 计数 器 有 一 个 锁 ， 全 局 计数 器 有 一 个 。 


懒 惰 计数 费 的 基本 思想 是 这 样 的 。 如 果 一 个 核心 上 的 线程 想 增加 计数 
器 ， 那 就 增加 它 的 局 部 计数 器 ， 访 问 这 个 局 部 计数 器 是 通过 对 应 的 局 
部 锁 同 步 的 。 因 为 每 个 CPU 有 上 自己 的 局 部 计数 器 ， 不 同 CPU 上 的 线程 不 
会 竞争 ， 所 以 计数 器 的 更 新 操作 可 扩展 性 好 。 


但 是 ， 为 了 保持 全 局 计数 器 更 新 (以 防 某 个 线程 要 读 取 该 值 ) ， 局 部 
值 会 定期 转移 给 全 局 计数 器 ， 方 法 是 获取 全 局 锁 ， 让 全 局 计数 器 加 上 
局 部 计数 器 的 值 ， 然 后 将 局 部 计数 絮 置 零 。 


这 种 局 部 转 全 局 的 频 度 ， 取 决 于 一 个 阅 值 ， 这 里 称 为 S$ (表示 
sloppiness ) 。 .5 越 小 ， 懒 惰 计 数 器 则 越 趋 近 于 非 扩 展 的 计数 器 。 ,5 越 
大 ， 扩 展 性 越 强 ， 但 是 全 局 计数 器 与 实际 计数 的 偏差 越 大 。 我 们 可 以 
抢占 所 有 的 局 部 锁 和 全 局 锁 〈 以 特定 的 顺序 ， 避 免 死 锁 ) ， 以 获得 精 
确 值 ， 但 这 种 方法 没有 扩展 性 。 

为 了 弄 清 楚 这 一 点 ， 来 看 一 个 例子 ( 见 表 29. 1) 。 在 这 个 例子 中 ， 阔 
值 5 设置 为 5，4 个 CPU 上 分 别 有 一 个 线程 更 新 局 部 计数 器 2 …，Z。 随 
着 时 间 增 加 ， 全 局 计数 器 6 的 值 也 会 记录 下 来 。 每 一 段 时 间 ， 局 部 计数 
器 可 能 会 增加 。 如 果 局 部 计数 值 增加 到 阐 值 $s， 就 把 局 部 值 转移 到 全 局 
计数 器 ， 局 部 计数 器 清 零 。 


表 29. 1 追踪 懒惰 计数 器 
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图 29. 3 中 下 方 的 线 ， 是 闵 值 5 为 1024 时 懒惰 计数 器 的 性 能 。 性 能 很 高 ， 
4 个 处 理 器 更 新 400 万 次 的 时 间 和 一 个 处 理 器 更 新 100 万 次 的 几乎 一 样 。 


图 29. 4 展示 了 阔 值 5 的 重要 性 ， 在 4 个 CPU 上 的 4 个 线程 ， 分 别 增 加 计数 
器 100 万 次 。 如 果 5 小 ， 性 能 很 差 〈 但 是 全 局 计数 器 精确 度 高 ) 。 如 果 5 
大 ， 人 性 能 很 好 ， 但 是 全 局 计数 器 会 有 延 时 。 人 懒惰 计数 器 就 是 在 准确 性 
和 性 能 之 间 折 中 。 
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图 29. 4 ”扩展 懒惰 计数 器 


图 29. 5 是 这 种 懒惰 计数 器 的 基本 实现 。 
些 例子 ， 以 便 更 好 地 理解 它 的 原理 。 





阅读 它 ， 或 者 运行 它 ， 党 试 一 





下 typedef struct counter 七 { 

int global; // global count 

3 pthread mutex t glock; // global lock 

4 int local [NUMCPUS]; // local count (per cpu) 
5 pthread mutex t llock[NUMCPUS]; // ... and locks 

6 int thresholgd; // update frequency 
7 } counter t; 

8 

9 // init: record threshold, init locks, init values 

10 // of all local counts and global count 

11 void init(counter t *c, int threshold) { 


12 c->threshold = threshold; 





1 

14 c->global = 0; 

于 号 pthread mutex _ init(&c->glock， NULL); 

16 

下 了 主 闪闪 证 

18 for (i = 0; i < NUMCPUS; i++) { 

19 c->local[i] = 0; 

20 pthread mutex init(&c->llock[i], NULL); 

2 工 } 

22 } 

23 

24 // update: usually, just grab local lock and update local amount 
加 A once local count has risen by 'threshold', grab global 
26 7/ lock and transfer local values to it 

27 void update (counter 七 xc int threadID, int amt) { 

28 pthread mutex lock(&c->llock[lthreadID]); 

29 c->local[threadID] += amt; // assumes amt > 0 
30 if (c->local [threaqID] >= c->threshold) { // transfer to global 
31 pthread mutex lock(&c->glock); 

32 c->global += c->locallthreadID]; 

33 pthread mutex unlock(&c->glock); 

34 c->locall[lthreadID] = 0; 

35 } 

36 pthread mutex unlock(&c->llock[threadID]); 

37 } 

38 

39 // get: just return global amount (which may not be perfect) 

40 int :get (Counter t *e)  { 

41 pthread mutex lock(&c->glock); 

42 int val = c->global; 

43 pthread mutex unlock(&c->glock); 

44 return val; // only approximate! 

45 } 


图 29. 5 ”懒惰 计数 器 的 实现 


29.2 并 发 链表 


接 下 来 看 一 个 更 复杂 的 数据 结构 ， 链 表 。 同 样 ， 我 们 从 一 个 基础 实现 
开始 。 简 单 起 见 ， 我 们 只 关注 链表 的 插入 操作 ， 其 他 操作 比如 查找 、 
删除 等 就 交 给 读者 了 。 图 29. 6 展示 了 这 个 基本 数据 结构 的 代码 。 








// basic list structure (one used per list) 
typedef struct list 七 { 


于 // basic node structure 

之 typedef struct node 七 { 

3 int key; 

4 struct node t *next; 
5 } node +t; 

6 

7 

8 


9 node t *head; 














10 pthread mutex t lock; 

TT } -list t» 

2 

13 void List Init(list t *L) { 

14 L->head = NULL; 

于 号 pthread mutex init (&L->lock, NULL); 
16 } 

二 这 

18 int List Insert (List t *L, int key) { 
19 pthread mutex lock(&L->lock); 

20 node t xnew = malloc(sizeof (node 七 ) ) ; 
忆 相 if (new == NULL) { 

2 泡 perror ("malloc"); 

23 pthread mutex unlock(&L->lock); 
24 returini ~1» //“ tail 

25 } 

26 new->key = key; 

py new->next = L->head; 

28 L->head = new; 

29 pthread mutex unlock(&L->lock); 

30 return 0; // success 

31 } 

32 

38 int List Lookup(list t *L, int key) { 
34 pthread mutex lock(&L->lock); 

35 node t *curr = L->head; 

36 while (curr) { 

3.7 if (curr->key == key) { 

38 pthread mutex unlock(&L->lock); 
39 return 0; // success 

40 } 

41 Curr = curr->next; 

42 } 

43 pthread mutex unlock(&L->lock); 

44 return -1; // failure 

45 } 








图 29. 6 ”并 发 链表 


从 代码 中 可 以 看 出 ， 代 码 插入 函数 入 口 处 获取 锁 ， 结 束 时 释放 锁 。 如 
果 malloc 失 败 〈 在 极 少 的 时 候 ) ， 会 有 一 点 小 问题 ， 在 这 种 情况 下 ， 
代码 在 插入 失败 之 前 ， 必 须 释放 锁 。 


事实 表明 ， 这 种 异常 控制 流 容易 产生 错误 。 最 近 一 个 Linux 内 核 补丁 的 
研究 表明 ， 有 40% 都 是 这 种 很 少 发 生 的 代码 路 径 〈 实 际 上 ， 这 个 发 现 启 
发 了 我 们 自己 的 一 些 研究 ， 我 们 从 Linux 文 件 系统 中 移 除了 所 有 内 存 失 
败 的 路 径 ， 得 到 了 更 健壮 的 系统 [LS+11] 〉。 


因此 ， 挑 战 来 了 : 我 们 能 够 重 写 插入 和 查找 函数 ， 保 持 并 发 插入 正 
确 ， 但 避免 在 失败 情况 下 也 需要 调用 释放 锁 吗 ? 




















在 这 个 例子 中 ， 答 案 是 可 以 。 具 体 来 说 ， 我 们 调整 代码 ， 让 获取 锁 和 
释放 锁 只 环绕 插入 代码 的 真正 临界 区 。 前 面 的 方法 有 效 是 因为 部 分 工 
作 实 际 上 不 需要 锁 ， 假 定 malloc 0 是 线程 安全 的 ， 每 个 线程 都 可 以 调 
用 它 ， 不 需要 担心 竞争 条 件 和 其 他 并 发 缺陷 。 只 有 在 更 新 共享 列表 时 
需要 持 有 锁 。 图 29. 7 展示 了 这 些 修改 的 细节 。 


对 于 查找 函数 ， 进 行 了 简单 的 代码 调整 ， 跳 出 主 查 找 循 环 ， 到 单一 的 
返回 路 径 。 这 样 做 减少 了 代码 中 需要 获取 锁 、 释 放 锁 的 地 方 ， 降 低 了 
代码 中 不 小 必 引 入 缺陷 《诸如 在 返回 前 筷 记 释放 锁 ) 的 可 能 性 。 




















下 void List Tnit (list t *L) { 

2 L->head = NULL; 

3 pthread mutex init (&L->lock, NULL); 
4 } 

5 

6 void List Insert(list t *L, int key) { 
7 // synchronization not needed 

8 node t xnew = malloc(sizeof (node 七 ) ) ; 
9 if (new == NULL) { 

10 perror ("malloc"); 

下 于 return; 

12 } 

13 new->key = key; 

14 

15 // just lock critical section 

16 pthread mutex lock(&L->lock); 

17 new->next = L->head; 

18 L->head = new; 

19 pthread mutex unlock(&L->lock); 

20 } 

21 

22 int List LookupP (List t *L, int key) { 
23 int rv = -1; 

24 pthread mutex lock(&L->lock); 

25 node t *curr = L->head; 

26 while (curr) { 

27 if (curr->key == key) { 

28 rv = 0; 

29 break; 

30 } 

31 GUrrY = CUrr-=->rnext; 

2 } 

33 pthread mutex unlock(&L->lock); 

34 return rv; // now both success and failure 
35 ) 








图 29. 7 重 写 并 发 链表 





扩展 链表 








尽管 我 们 有 了 基本 的 并 发 链表 ， 但 又 遇 到 了 这 个 链表 扩展 性 不 好 的 问 
题 。 研 究 人 员 发 现 的 增加 链表 并 发 的 技术 中 ， 有 一 种 叫 作 过 手 锁 
( hand-over-hand locking ， 也 叫 作 锁 耦 合 ，1lock coupling ) 

[MS04] 。 


原理 也 很 简单 。 每 个 节点 都 有 一 个 锁 ， 蔡 代 之 前 整个 链表 一 个 锁 。 志 
历 链表 的 时 候 ， 首 先 抢占 下 一 个 节点 的 锁 ， 然 后 释放 当前 节点 的 锁 。 


从 概念 上 说 ， 过 手 锁 链表 有 点 道理 ， 它 增加 了 链表 操作 的 并 发 程度 。 
但 是 实际 上 ， 在 遍历 的 时 候 ， 每 个 节点 获取 锁 、 释 放 锁 的 开销 巨大 ， 
很 难 比 单 锁 的 方法 快 。 即 使 有 大 量 的 线程 和 很 大 的 链表 ， 这 种 并 发 的 
方案 也 不 一 定 会 比 单 锁 的 方案 快 。 也 许 某 种 杂 合 的 方案 〈 一 定数 量 的 
节点 用 一 个 锁 ) 值得 去 研究 。 





提示 : 更 多 并 发 不 一 定 更 快 


如 果 方 案 带 来 了 大 量 的 开销 (例如 ， 频 或 地 获取 锁 、 释 放 
锁 ) ， 那 么 高 并 发 就 没有 什么 意义 。 如 果 简 单 的 方案 很 少 用 
到 高 开销 的 调用 ， 通 常会 很 有 效 。 增 加 更 多 的 锁 和 复杂 性 可 
能 会 适得其反 。 话 虽 如 此 ， 有 一 种 办 法 可 以 获得 真知 : 实现 
两 种 方案 (简单 但 少 一 点 并 发 ， 复 杂 但 多 一 点 并 发 ) ， 测 试 
它们 的 表现 。 毕 葛 ， 你 不 能 在 性 能 上 作 浆 。 结 果 要 么 更 快 ， 
要 么 不 快 。 











提示 : 当心 锁 和 控制 流 


有 一 个 通用 建议 ， 对 并 发 代码 和 其 他 代码 都 有 用 ， 即 注意 控 
制 流 的 变化 导致 函数 返回 和 退出 ， 或 其 他 错误 情况 导致 函数 
停止 执行 。 因 为 很 多 函数 开始 就 会 获得 锁 ， 分 配 内 存 ， 或 者 
进行 其 他 一 些 改变 状态 的 操作 ， 如 果 错 误 发 生 ， 代 码 需 要 在 











返回 前 恢复 各 种 状态 ， 这 容易 出 错 。 因 此 ， 最 好 组 织 好 代 


码 ， 减 少 这 种 模式 。 


29.3 并 发 队列 


你 现在 知道 了 ， 
一 把 大 锁 。 对 于 


总 有 一 个 标准 的 方法 来 创建 一 个 并 发 数据 结构 : 添加 
个 队列 ， 我 们 将 跳 过 这 种 方法 ， 假 定 你 能 乔 明白 。 





我 们 来 看 看 Michae1 和 Scott [MS98] 设 计 的 、 更 并 发 的 队列 。 图 29. 8 展 


示 了 用 于 该 队列 的 数据 结构 和 代码 。 








NULEL ) ， 





























下 typedef struct node 七 { 

2 主 表 七 value; 

3 struct ‘node tt *next; 

4 } node t; 

5 

6 typedef struct queue 七 { 

7 node t *head; 

8 node t 二 七 忌 再 二 3 

9 pthread mutex t headLock; 

10 pthread mutex t tailLock; 

1 } queue t; 

工 之 

13 void Queue Init(queue t *q) { 

14 node t *tmp = malloc(sizeof (node 七 ) ) ; 
iS tmp->next = NULL; 

16 q->head = q->tail = tmp; 

17 pthread mutex init (&q->headLock, 

18 pthread mutex init (&q->tailLock, NULL 
19 } 

20 

21 void Queue Enqueue (queue t *q, int value) 
22 node t *tmp = malloc(sizeof (node 七 ) ) ; 
23 assert (tmp != NULL); 

24 tmp->value = value; 

25 tmp->next = NULL; 

26 

27 pthread mutex lock(&q->tailLock); 

28 dq->tail->next = tmp; 

29 dq->tail = tmp; 

30 pthread mutex unlock(&q->tailLock); 
31 } 

32 

33 int Queue Dequeue (queue t *q, int *value) 
34 pthread mutex lock(&q->headLock); 

35 node t *tmp = q->head; 

36 node 七 *newHead = tmp->next; 

3 if (newHead == NULL) 1{ 


38 pthread mutex unlock(&dq->headqLock) ， 


39 return -1; // queue was empty 
40 } 

41 *value = newHead->value; 

42 dq->head = newHead; 

43 pthread mutex unlock(&q->headLock); 
44 free (tmp); 

45 return 0; 

46 } 


图 29. 8 Michael 和 Scott 的 并 发 队列 


仔细 研究 这 段 代 码 ， 你 会 发 现 有 两 个 锁 ， 一 个 负责 队列 头 ， 另 一 个 负 
责 队列 尾 。 这 两 个 锁 使 得 入 队列 操作 和 出 队列 操作 可 以 并 发 执行 ， 因 
为 入 队列 只 访问 tail 锁 ， 而 出 队列 只 访问 head 锁 。 


Michael 和 Scott 使 用 了 一 个 技巧 ， 添 加 了 一 个 假 节点 (在 队列 初始 化 
的 代码 里 分 配 的 ) 。 该 假 节 点 分 开 了 头 和 尾 操作 。 研 究 这 段 代 码 ， 或 
者 输入 、 运 行 、 测 试 它 ， 以 便 更 深入 地 理解 它 。 


队列 在 多 线程 程序 里 广泛 使 用 。 然 而 ， 这 里 的 队列 《只 是 加 了 锁 ) 通 
常 不 能 完全 满足 这 种 程序 的 需求 。 更 完善 的 有 界 队 列 ， 在 队列 空 或 者 
满 时 ， 能 让 线程 等 待 。 这 是 下 一 章 探 讨 条 件 变量 时 集中 研究 的 主题 。 
读者 需要 看 仔细 了 ! 








29.4 并 发 散 列 表 


我 们 讨论 最 后 一 个 应 用 广泛 的 并 发 数据 结构 ， 散 列表 《〈 见 图 29.9) 。 
我 们 只 关注 不 需要 调整 大 小 的 简单 散 列 表 。 文 持 调整 大 小 还 需要 一 些 
工作 ， 留 给 读者 作为 练习 。 











下 #define BUCKETS (101) 

2 

3 typedef struct hash 七 { 

4 list t lists[BUCKETS]; 

5 } hash t; 

6 

7 void Hash Init (hash 七 *H) { 

8 ie oh ee 

9 for (i = 0; i < BUCKETS; i++) { 
10 List Init(&H->lists[i]); 
11 } 














14 int Hash Insert (hash t *H, int key) { 

Ls int bucket = key $$ BUCKETS; 

16 return List Insert (&H->lists[bucket], key); 
17 } 

18 

19 int Hash Lookup(hash t *H, int key) { 

20 int bucket = key $$ BUCKETS; 

21 return List Lookup (&H->lists[bucket], key); 
22 } 


图 29. 9 并 发 散 列 表 


本 例 的 散 列 表 使 用 我 们 之 前 实现 的 并 发 链表 ， 性 能 特别 好 。 每 个 散 列 
桶 (每 个 桶 都 是 一 个 链表 )〉 都 有 一 个 锁 ， 而 不 是 整个 散 列 表 只 有 一 个 
锁 ， 从 而 支持 许多 并 发 操作 。 


15 了] o 简单 并 发 链表 
x 并 发 散 列 表 





时 间 (s) 





0 10 20 30 40 
插入 ( 千 次 ) 


图 29. 10 ”扩展 散 列表 


图 29. 10 展 示 了 并 发 更 新 下 的 散 列表 的 性 能 (同样 在 4 CPU 的 iMac，4 个 
线程 ， 每 个 线程 分 别 执行 1 万 一 5 万 次 并 发 更 新 ) 。 同 时 ， 作 为 比较 ， 
我 们 也 展示 了 单 锁链 表 的 性 能 。 可 以 看 出 ， 这 个 简单 的 并 发 散 列 表 扩 - 
展 性 极 好 ， 而 链表 则 相反 。 





建议 :避免 不 成 熟 的 优化 (Knuth 定 律 》 


实现 并 友 数 据 结构 时 ， 先 从 最 简单 的 方案 开始 ， 也 就 是 加 一 
把 大 锁 来 同步 。 这 样 做 ， 你 很 可 能 构建 了 正确 的 锁 。 如 果 发 
现 性 能 问题 ， 那 么 就 改进 方法 ， 只 要 优化 到 满足 需要 即 可 。 
正如 Knuth 的 著名 说 法 “不 成 熟 的 优化 是 所 有 坏事 的 根源 。” 


许多 操作 系统 ， 在 最 初 过 渡 到 多 处 理 器 时 都 是 用 一 把 大 锁 ， 
包括 Sun 和 Linux。 在 Linux 中 ， 这 个 锁 甚 至 有 个 名 字 ， 叫 作 
BKL 〈 大 内 核 锁 ，big kernel lock) 。 这 个 方案 在 很 多 年 里 
都 很 有 效 ， 直 到 多 CPU 系统 普及 ， 内 核 只 允许 一 个 线程 活动 成 
为 性 能 瓶颈 。 终 于 到 了 为 这 些 系统 优化 并 发 性 能 的 时 候 了 。 
Linux 采 用 了 简单 的 方案 ， 把 一 个 锁 换 成 多 个 。Sun 则 更 为 激 
进 ， 实 现 了 一 个 最 开始 就 能 并 发 的 新 系统 ，S$olaris。 读 者 可 
以 通过 Linux 和 Solaris 的 内 核资 料 了 解 更 多 信息 [BC05， 
MM00] 。 














29.5 小 结 


我 们 已 经 介绍 了 一 些 并 发 数据 结构 ， 从 计数 器 到 链表 队列 ， 最 后 到 大 
量 使 用 的 散 列 表 。 同 时 ， 我 们 也 学 习 到 : 控制 流 变 化 时 注意 获取 锁 和 
释放 锁 ; 增加 并 发 不 一 定 能 提高 性 能 ， 有 性 能 问题 的 时 候 再 做 优化 。 
关于 最 后 一 点 ， 避 免 不 成熟 的 优化 (premature optimization) ， 对 
于 所 有 关心 性 能 的 开发 者 都 有 用 。 我 们 让 整个 应 用 的 某 一 小 部 分 变 
快 ， 却 没有 提高 整体 性 能 ， 其 实 没 有 价值 。 


当然 ， 我 们 只 触及 了 高 性 能 数据 结构 的 皮毛 。Moir 和 Shavit 的 调查 提 
供 了 更 多 信息 ， 包 括 指向 其 他 来 源 的 链接 [MS04] 。 特 别 是 ， 你 可 能 会 
对 其 他 结构 感 兴趣 (比如 B 树 ) ， 那 么 数据 库 课程 会 是 一 个 不 错 的 先 
择 。 你 也 可 能 对 根本 不 用 传统 锁 的 技术 感 兴趣 。 这 种 非 阻塞 数据 结构 
是 有 意义 的 ， 在 常见 并 发 问题 的 章节 中 ， 我 们 会 稍稍 涉及 。 但 老实 说 
这 是 一 个 广泛 领域 的 知识 ， 远 非 本 书 所 能 覆盖 。 感 兴趣 的 读者 可 以 自 
行 研究 。 


[B+10] “An Analysis of Linux Scalability to Many Cores” 


Silas Boyd-Wickizer，Austin T. Clements, Yandong Mao，Aleksey 
Pesterev, M. Frans Kaashoek, Robert Morris, Nickolai 
Zeldovich 


OSDI ” 10, Vancouver, Canada, October 2010 


关于 Linux 在 多 核 机 器 上 的 表现 以 及 对 一 些 简 单 的 解决 方案 的 很 好 的 研 
完 。 


[BH73] “Operating System Principles” Per Brinch Hansen, 
Prentice-Hall, 1973 


最 早 的 操作 系统 图 书 之 一 。 当 然 领 先 于 它 的 时 代 。 将 观察 者 作为 并 发 
原 语 引 入 。 


[BCO5] “Understanding the Linux Kernel (Third Edition)” 
Daniel P. Bovet and Marco Cesati 








0” Reilly Media, November 2005 
关于 Linux 内 核 的 经 典 书籍 。 你 应 该 阅读 它 。 


[L+13] “A Study of Linux File System Evolution” 


Lanyue Lu, Andrea C. Arpaci-~Dusseau, Remzi H. Arpaci-Dusseay, 
Shan Lu FAST ” 13, San Jose, CA, February 2013 


我 们 的 论文 研究 了 近 十 年 来 Linux 文 件 系 统 的 每 个 补丁 。 论 文中 有 很 多 
有 趣 的 发 现 ， 读 读 看 ! 这 项 工作 很 痛 苗 ， 这 位 研究 生 Lanyue Lu 不 得 不 
杀 目 查看 每 一 个 补丁 ， 以 了 解 它 们 做 了 什么 。 








[MS98] “Nonblocking Algorithms and Preemption-safe Locking on 
Multiprogrammed Sharedmemory Multiprocessors” 


M. Michael and M. Scott 


Journal of Parallel and Distributed Computing, Vol. 51, No. 
1, 1998 


Scott 教 授 和 他 的 学 生 多 年 来 一 直 处 于 并 发 算法 和 数据 结构 的 前 沿 。 浏 
览 他 的 网 页 ， 并 阅读 他 的 大 量 的 论文 和 书籍 ， 可 以 了 解 更 多 信息 。 


[MSO04]“Concurfrent Data Structures” Mark Moir and Nir Shavit 








In Handbook of Data Structures and Applications 


(Editors D. Metha and S.Sahni) Chapman and Hall/CRC Press, 
2004 


关于 并 发 数据 结构 的 简短 但 相对 全 面 的 参考 。 虽 然 它 缺少 该 领域 的 一 
2 《由 于 它 的 时 间 ) ， 但 仍然 是 一 个 令 人 难以 置信 的 有 用 的 


[LMM00]“S$olaris Internals: Core Kernel Architecture” Jim 
Mauro and Richard McDougall 


Prentice Hall, October 2000 


Solaris 之 书 。 如 果 你 想 详 细 了 解 Linux 之 外 的 其 他 内 容 ， 就 应 该 阅读 
本 书 。 


[S+1ll] “Making the Common Case the Only Case with 
Anticipatory Memory Allocation” Swaminathan Sundararaman, 


Yupu Zhang, Sriram Subramanian, 


Andrea C. Arpaci-Dusseau, Remzi H. Arpaci-~Dusseau FAST ”11, 
San Jose, CA, February 2011 


我 们 关于 从 内 核 代码 路 径 中 删除 可 能 失败 的 malloc 调 用 的 工作 。 其 主 
要 想法 是 在 做 任何 工作 之 前 分 配 所 有 可 能 需要 的 内 存 ， 从 而 避免 存储 
栈 内 部 发 生 故 障 。 


第 30 章 ”条 件 变量 


到 目前 为 止 ， 我 们 已 经 形成 了 锁 的 概念 ， 看 到 了 如 何 通过 硬件 和 操作 
和 
唯一 原 语 。 


具体 来 说 ， 在 很 多 情况 下 ， 线 程 需要 检查 某 一 条 件 (condition) 满足 
之 后 ， 才 会 继续 运行 。 例 如 ， 父 线程 需要 检查 子 线程 是 否 执行 完毕 
[这 常 被 称 为 join 0 ] 。 这 种 等 待 如 何 实现 呢 ? 我 们 来 看 如 图 30. 1 所 示 
的 代码 。 














void *child(void *arg) 1{ 

2 Bretntf( "oni La mn) 

3 // XXX how to indicate we are done? 
4 return NULL; 

5 } 

6 

7 int main(int argc char *argv[]) { 

8 printf("parent: begin\n"); 

9 pthread t c; 

10 Pthread create(g&c, NULL, child, NULL); // create child 
11 // XXX how to wait for child? 

12 printf("parent: end\n"); 

13 return 0; 

14 } 


图 30. 1 父 线程 等 待 子 线程 
我 们 期 望 能 看 到 这 样 的 输出 : 


parent: begin 
child 
parent: end 





我 们 可 以 尝试 用 一 个 共享 变量 ， 如 图 30. 2 所 示 。 这 种 解决 方案 一 般 能 
工作 ， 但 是 效率 低下 ， 因 为 主线 程 会 自 旋 检查 ， 浪 费 CPU 时 间 。 我 们 希 
望 有 茶 种 方式 让 父 线程 休眠 ， 直 到 等 竺 的 条 件 满足 〈 即 子 线程 完成 执 
生 ) 


volatile int done = 0; 


void *child(voiqd *arg) 1{ 
HELntF( enim) 
done = 1; 
return NULL; 

} 
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9 int main(int argc, char *argv[]) { 
10 printf("parent: begin\n"); 
11 pthread t c; 
12 Pthread create (&c，NULL，child，NULL); // create child 
13 while (done == 0) 
14 ; // spin 
了 与 printf("parent: end\n"); 
6 return 0; 
17 } 
图 30. 2 ” 父 线 程 等 待 子 线程 :基于 自 旋 的 方案 














关键 问题 : 如何 等待 一 个 条 件 ? 


多 线程 程序 中 ， 一 个 线程 等 待 某 些 条 件 是 很 常见 的 。 简 单 的 
方案 是 上 自 旋 直到 条 件 满足 ， 这 是 极其 低 效 的 ， 茶 些 情 况 下 甚 
至 是 错误 的 。 那 么 ， 线 程 应 该 如 何等 待 一 个 条 件 ? 








30.1 定义 和 程序 


线程 可 以 使 用 条 件 变 量 (condition variable) ， 来 等 待 一 个 条 件 变 
成 真 。 条 件 变 量 是 一 个 显 式 队 列 ， 当 某 些 执行 状态 〈 即 条 件 ， 
condition) 不 满足 时 ， 线 程 可 以 把 自己 加 入 队列 ， 等 待 (waiting) 
该 条 件 。 另 外 某 个 线程 ， 当 它 改变 了 上 述 状态 时 ， 就 可 以 唤醒 一 个 或 
者 多 个 等 竺 线程 〈 通 过 在 该 条 件 上 发 信号 ) ， 让 它们 继续 执行 。 
Dijkstra 最 早 在 “私有 信号 量 ”[D01] 中 提出 这 种 思想 。Hoare 后 来 在 
关于 观察 者 的 工作 中 ， 将 类 似 的 思想 称 为 条 件 变量 [H74j] 。 


要 声明 这 样 的 条 件 变 量 ， 只 要 像 这 样 写 : pthread cond t 6;> 这 里 声 
明 c 是 一 个 条 件 变 量 〈( 注 意 : 还 需要 适当 的 初始 化 ) 。 条 件 变 量 有 两 种 








相关 操作 : wait 0 和 signal() 。 线 程 要 睡眠 的 时 候 ， 调 用 wait() 。 当 
线程 想 唤 醒 等 竺 在 某 个 条 件 变 量 上 的 睡眠 线程 时 ， 调 用 signal () 。 具 
体 来 说 ，P0SIX 调 用 如 图 30. 3 所 示 。 


pthread cond wait (pthread cond t *c, Pthread mutex t xm) 
pthread cond signal (pthread cond 七 *c); 



































ly int done = 0; 

2 pthread mutex t m = PTHREAD MUTEX INITIALIZER; 
3 pthread cond t C = PTHREAD COND INITIALIZER; 
4 

5 void thr exit() { 

6 Pthread mutex lock (&m); 

7 done = 1; 

8 Pthread cond signal (&c); 

9 Pthread mutex unlock(&m) ， 

10 } 

a 

下 学 void *child(void *arg) { 

13 printf ("child\n"); 

14 th exit"() > 

二 return NULL; 

16 } 

17 

18 void thr join() { 

19 Pthread mutex lock (&m); 

20 while (done == 0) 

Z| Pthread cond wait(&c, &m); 
22 Pthread mutex unlock(&m); 

23 } 

24 

2 int main(int argc, char *argv[]) { 
26 printf("parent: begin\n"); 

27 pthread t p; 

28 Pthread create(&p, NULL, child, NULL); 
29 Ehr JOLm()y 

30 printf ("parent: end\n"); 

3 return 0; 

说 } 











图 30. 3 ” 父 线程 等 待 子 线程 : 使 用 条 件 变 量 


我 们 党 简称 为 vait OO 和 signal()。 你 可 能 注意 到 一 点 ，wait 0 调用 有 
一 个 参数 ， 它 是 互 斥 量 。 它 假定 在 wait (0) 调用 时 ， 这 个 互 斥 量 是 已 上 
锁 状 态 。wait 0 的 职责 是 释放 锁 ， 并 让 调用 线程 休眠 (原子 地 ) 。 当 
线程 被 唤醒 时 (在 男 外 某 个 线程 发 信号 给 它 后 ) ， 它 必须 重新 获取 
锁 ， 再 返回 调用 者 。 这 样 复 杂 的 步骤 也 是 为 了 避免 在 线程 陷入 休 眼 
时 ， 产 生 一 些 竞 态 条 件 。 我 们 观察 一 下 图 30.3 中 join 问题 的 解决 方 
法 ， 以 加 深 理 解 。 


























有 两 种 情况 需要 考虑 。 第 一 种 情况 是 父 线程 创建 出 子 线程 ， 但 自己 继 
续 运 行 ( 假 设 只 有 一 个 处 理 器 〉 ， 然 后 马上 调用 thr_join0 等 待 子 线 
程 。 在 这 种 情况 下 ， 它 会 先 获 取 锁 ， 检 查 子 进程 是 否 完成 还 没有 完 
成 )， 然 后 调用 wait ()， 让 目 己 休眠 。 子 线程 最 终 得 以 运行 ， 打 印 出 
“child”， 并 调用 thr_exit 0 函数 唤醒 父 进 程 ， 这 段 代 码 会 在 获得 锁 
后 设置 状态 变量 done， 然 后 向 父 线程 发 信号 唤醒 它 。 最 后 ， 父 线程 会 
运行 (从 wait0 调用 返回 并 持 有 锁 ) ， 释 放 锁 ， 打 印 出 


“parent:end”。 


第 二 种 情况 是 ， 子 线程 在 创建 后 ， 立 刻 运 行 ， 设 置 变量 done 为 1， 调 用 
signal 函 数 唤 醒 其 他 线程 〈 这 里 没有 其 他 线程 ) ， 然 后 结束 。 父 线程 
运行 后 ， 调 用 thr join(O 时， 发 现 done 已 经 是 1 了 ， 就 直接 返回 。 


最 后 一 点 说 明 : 你 可 能 看 到 父 线程 使 用 了 一 个 while 循 环 ， 而 不 是 if 语 
句 来 判断 是 否 需 要 等 待 。 虽 然 从 逻辑 上 来 说 没有 必要 使 用 循环 语句 ， 
但 这 样 做 总 是 好 的 〈“ 后 面 我 们 会 加 以 说 明 ) 。 


为 了 确保 理解 thr_exit() 和 thr_join() 中 每 个 部 分 的 重要 性 ， 我 们 来 
看 一 些 其 他 的 实现 。 首 先 ， 你 可 能 会 怀疑 状态 变量 done 是 否 需要 。 代 
码 像 下 面 这 样 如 何 ? 正确 吗 ? 


void thr exit() { 
thread mutex lock (&m); 
Pthread cond signal (&c); 
Pthread mutex unlock (&m); 




















Wi 


votd thr Join() A 
Pthread mutex lock (&m); 
Pthread cond wait(&c, &m); 
thread mutex unlock(&m); 








PPPWOOFOOODB ODP 


卢 CO 〇 
my 


这 段 代 码 是 有 问题 的 。 假 设 子 线程 立刻 运行 ， 并 且 调 用 thr_exit() 。 
在 这 种 情况 下 ， 子 线程 发 送信 号 ， 但 此 时 却 没 有 在 条 件 变量 上 睡眠 等 
竺 的 线程 。 父 线程 运行 时 ， 就 会 调用 wait 并 卡 在 那里 ， 没 有 其 他 线程 
会 唤醒 它 。 通 过 这 个 例子 ， 你 应 该 认识 到 变量 done 的 重要 性 ， 它 记录 
了 线程 有 兴趣 知道 的 值 。 睡 卢 、 唤 醒 和 锁 都 离 不 开 它 。 


下 面 是 另 一 个 糟糕 的 实现 。 在 这 个 例子 中 ， 我 们 假设 线程 在 发 信号 和 
等 待 时 都 不 加 锁 。 会 有 发生 什么 问题 ? 想 想 看 ! 





void thr exit() { 
done = 1; 
Pthread cond signal (&c); 
} 


void thr join() { 
if (done == 0) 
Pthread cond wait (&c); 
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} 





这 里 的 问题 是 一 个 微妙 的 竞 态 条 件 。 有 具体 来 说 ， 如 采 父 进程 调用 
thr join() ， 然 后 检查 完 done 的 值 为 0， 然 后 试图 睡眠 。 但 在 调用 wait 
进入 睡眠 之 前 ， 父 进程 被 中 断 。 子 线程 修改 变量 done 为 1， 发 出 信号， 
同样 没有 等 待 线程 。 父 线程 再 次 运行 时 ， 就 会 长 眠 不 醒 ， 这 就 惨 了 。 








提示 : 发 信号 时 总 是 持 有 锁 


尽管 并 不 是 所 有 情况 下 都 严格 需要 ， 但 有 效 且 简单 的 做 法 ， 
还 是 在 使 用 条 件 变量 发 送信 号 时 持 有 锁 。 虽 然 上 面 的 例子 是 
必须 加 锁 的 情况 ， 但 也 有 一 些 情况 可 以 不 加 锁 ， 而 这 可 能 是 
你 应 该 避免 的 。 因 此 ， 为 了 简单 ， 请 在 调用 signal 时 持 有 锁 
(hold the lock when calling signal) 。 


这 个 提示 的 反面 ， 即 调用 wait 时 持 有 锁 ， 不 只 是 建议 ， 而 是 
wait 的 语义 强制 要 求 的 。 因 为 wait 调 用 总 是 假设 你 调用 它 时 
己 经 持 有 锁 、 调 用 者 睡眠 之 前 会 释放 锁 以 及 返回 前 重新 持 有 
锁 。 因 此 ， 这 个 提示 的 一 般 化 形式 是 正确 的 : 调用 signal 和 
wait 时 要 持 有 锁 (hold the lock when calling signal or 
wait) ， 你 会 保持 身心 健康 的 。 











希望 通过 这 个 简单 的 join 示例 ， 你 可 以 看 到 使 用 条 件 变量 的 一 些 基 本 
要 求 。 为 了 确保 你 能 理解 ， 我 们 现在 来 看 一 个 更 复杂 的 例子 : 生产 者 / 
消费 者 (producer/consumer ) 或 有 界 缓冲 区 〈bounded-buffer ) 问 
题 。 


30.2 生产 者 /消费 者 〈 有 界 缓冲 区 ) 问题 





本 章 要 面 对 的 下 一 个 问题 ， 是 生产 者 /消费 者 (producer/consumer) 
问题 ， 也 叫 作 有 界 缓冲 区 (bounded buffer) 问题 。 这 一 问题 最 早 由 
Dijkstra 提 出 [D72] 。 实 际 上 也 正 是 通过 研究 这 一 问题 ，Di jkstra 和 他 
的 同事 发 明了 通用 的 信号 量 〈( 它 可 用 作 锁 或 条 件 变 量 ) [D01]。 


假设 有 一 个 或 多 个 生产 者 线程 和 一 个 或 多 个 消费 者 线程 。 生 产 者 把 生 
A 消费 者 从 绥 冲 区 取 走 数据 项 ， 以 某 种 方式 消 


-人 ”9 





很 多 实际 的 系统 中 都 会 有 这 种 场景 。 例 如 ， 在 多 线程 的 网 络 服务 器 
中 ， 一 个 生产 者 将 HTTP 请 求 放 入 工作 队列 《“ 即 有 界 缓冲 区 ) ， 消 费 线 
程 从 队列 中 取 走 请 求 并 处 理 。 


我 们 在 使 用 管道 连接 不 同 程序 的 输出 和 输入 时 ， 也 会 使 用 有 界 缓冲 
区 ， 例 如 grep foo file.txt | wc -1。 这 个 例子 并 发 执行 了 两 个 进 
程 ，grep 进 程 从 file. txt 中 查找 包括 “foo” 的 行 ， 写 到 标准 输出 ; 
UNIX shell 把 输出 重 定向 到 管道 (通过 pipe 系 统 调用 创建 )。 管 道 的 
另 一 端 是 wc 进 程 的 标准 输入 ，wc 统 计 完 行 数 后 打印 出 结果 。 因 此 ， 
grep 进 程 是 生产 者 ，wc 是 进程 是 消费 者 ， 它 们 之 间 是 内 核 中 的 有 界 组 
冲 区 ， 而 你 在 这 个 例子 里 只 是 一 个 开心 的 用 户 。 


因为 有 界 缓冲 区 是 共享 资源 ， 所 以 我 们 必须 通过 同步 机 制 来 访问 它 ， 
以 免 册 产生 竞 态 条 件 。 为 了 更 好 地 理解 这 个 问题 ， 我 们 来 看 一 些 实际 
的 代码 。 


首先 需要 一 个 共享 缓冲 区 ， 让 生产 者 放 入 数据 ， 消 费 者 取出 数据 。 简 
单 起 见 ， 我 们 就 拿 一 个 整数 来 做 缓冲 区 你 当然 可 以 想到 用 一 个 指 疝 
数据 结构 的 指针 来 代 蔡 ) ， 两 个 内 部 函数 将 值 放 入 缓冲 区 ， 从 缓冲 区 
取 值 。 图 30. 4 为 相关 代码 。 








buffer = value; 


1 int buffer; 

2 int count = 0; // initially, empty 
3 

4 void put(int value) { 

3 assert (count == 0) ， 

6 Count = 1; 

7 

8 


10 int get() { 

|] assert (count == 1) ， 
12 count = 0; 

13 return buffer; 


图 30.4 ”put 和 get 函 数 〈( 第 1 版 ) 


很 简单 ， 不 是 吗 ? put 0 函数 会 假设 缓冲 区 是 空 的 ， 把 一 个 值 存 在 缓冲 
区 ， 然 后 把 count 设 置 为 1 表示 绥 冲 区 满 了 。get (0 函数 刚好 相反 ， 把 组 
冲 区 清空 后 《即将 count 设 置 为 0) ， 并 返回 该 值 。 不 用 担心 这 个 共享 
缓冲 区 只 能 存储 一 条 数据 ， 稍 后 我 们 会 一 般 化 ， 用 队列 保存 更 多 数据 
项 ， 这 会 比 听 起 来 更 有 趣 。 


现在 我 们 需要 编写 一 些 函 数 ， 知 道 何 时 可 以 访问 缓冲 区 ， 以 便 将 数据 
放 入 绥 冲 区 或 从 缓冲 区 取出 数据 。 条 件 是 显而易见 的 : 仅 在 count 为 0 
时 《 即 缓冲 器 为 空 时 ) ， 才 将 数据 放 入 缓冲 器 中 。 仅 在 计数 为 1 时 《 即 
缓冲 器 已 满 时 ) ， 才 从 缓冲 器 获得 数据 。 如 果 我 们 编写 同步 代码 ， 让 
生产 者 将 数据 放 入 已 满 的 缓冲 区 ， 或 消费 者 从 空 的 数据 获取 数据 ， 就 
做 错 了 《在 这 段 代码 中 ， 肠 言 将 触 友 ) 。 


这 项 工作 将 由 两 种 类 型 的 线程 完成 ， 其 中 一 类 我 们 称 之 为 生产 者 
(producer ) 线程 ， 男 一 类 我 们 称 之 为 消费 者 (consumer ) 线程 。 图 
30. 5 展示 了 一 个 生产 者 的 代码 ， 它 将 一 个 整数 放 入 共享 缓冲 区 loops 
次 ， 以 及 一 个 消费 者 ， 它 从 该 共享 缓冲 区 中 获取 数据 (永远 不 停 )， 

每 次 打印 出 从 共享 缓冲 区 中 提取 的 数据 项 。 


1 void *producer (void *arg) { 
2 nt 谋 

3 int loops = (int) arg; 

4 fo (i = 0% i, < LOOBS; 主 4+》 .+ 
5 put (1); 

6 } 

7 } 

8 

9 void *consumer (void *arg) { 
10 i oh ee 证 这 

下 下 while (1) { 

2 int tmp = get(); 

13 printf ("S$d\n", tmp); 


14 } 
13 } 











图 30. 5 ”生产 者 /消费 者 线程 (第 1 版 ) 


有 问题 的 方案 








假设 只 有 一 个 生产 者 和 一 个 消费 者 。 显 然 ，put 0 和 get (函数 之 中 会 
有 临界 区 ， 因 为 put 0 更 新 缓冲 区 ，get 0 读 取 缓冲 区 。 但 是 ， 给 代码 
加 锁 没 有 用 ， 我 们 还 需 别 的 东西 。 不 奇怪 ， 别 的 东西 就 是 某 些 条 件 变 
量 。 在 这 个 (有 问题 的 ) 首次 尝试 中 〈 见 图 30.6) ， 我 们 用 了 条 件 变 
量 cond 和 相关 的 锁 mutex。 








业 cond 七 congd; 

2 mutex t mutex; 

3 

4 void *producer (void *arg) { 

5 生字 二 > 

6 for (i = 0; i < loops; i++) { 

7 Pthread mutex lock(&mutex); // pl 
8 if (count == 1) /7 .Pp2 
9 Pthread cond wait(&cond, &mutex); // p3 
10 put (i); VA ob! 
i Pthread cond signal(&cond); 双人 
2 Pthread mutex unlock(&mutex); // p6 
3 } 

14 } 

LS 

16 void *consumer (void *arg) { 

17 Et 

Le for- (二 07 < L100BS? ++) 1{ 

19 Pthread mutex lock (&mutex); Pl 
20 if (count == 0) /G2 
2 Pthread cond wait(&cond, &mutex); /大 :人 3 
22 int tmp = get(); // c4 
23 Pthread cond signal (&cond); A is 
24 Pthread mutex unlock (&mutex); /X76 

25 printf ("$d\n", tmp); 

26 } 

27 } 











图 30.6 生产 者 /消费 者 : 一 个 条 件 变 量 和 if 语 句 
来 看 看 生产 者 和 消费 者 之 间 的 信和 与 逻辑 。 当 生产 者 想 要 填充 绥 冲 区 
时 ， 它 等 待 缓冲 区 变 空 (pl1~p3) 。 消 费 者 具有 完全 相同 的 逻辑 ， 但 
等 待 不 同 的 条 件 一 一 变 满 (cl1~c3) 。 

当 只 有 一 个 生产 者 和 一 个 消费 者 时 ， 图 30. 6 中 的 代码 能 够 正常 运行 。 
但 如 果 有 超过 一 个 线程 (例如 两 个 消费 者 ) ， 这 个 方案 会 有 两 个 严重 
的 问题 。 哪 两 个 问题 ? 

epee (暂停 思考 一 下 )……… 


我 们 来 理解 第 一 个 问题 ， 它 与 等 竺 之 前 的 证 语 名 有 关 。 假 设 有 两 个 消 
费 才 7 先 开 























始 执行 ， 它 获得 锁 〈cl1) ， 检查 缓冲 区 是 否 可 以 消费 (c2) ， 然 后 等 
待 (c3) 〈 这 会 释放 锁 ) 。 


接着 生产 者 (7,) 运行 。 它 获取 锁 (pl1) ， 检 查 缓冲 区 是 否 满 
Cp2) ， 发 现 没 满 就 给 缓冲 区 加 入 一 个 数字 (p4) 。 然 后 生产 者 发 出 
埋 号 ， 说 缓冲 区 已 满 (p5) 。 关 键 的 是 ， 这 让 第 一 个 消费 者 (7)) 不 
再 睡 在 条 件 变 量 上 ， 进 入 就 绪 队 列 。7,j 现 在 可 以 运行 (但 还 未 运 
行 ) 。 生 产 者 继续 执行 ， 直 到 发 现 缓冲 区 满 后 睡眠 (p6, p1-p3)。 


这 时 问题 发 生 了 : 男 一 个 消费 者 (7.,) 抢先 执行 ， 消 费 了 绥 冲 区 中 的 
值 (cl1, c2, c4, c5, c6， 跳 过 了 c3 的 等 待 ， 因 为 缓冲 区 是 满 的 ) 。 现 在 
假设 7 运行 ， 在 从 wait 返 回 之 前 ， 它 获取 了 锁 ， 然 后 返回 。 然 后 它 调 
用 了 get() (p4)， 但 缓冲 区 已 无 法 消费 ! 断言 触发 ， 代 码 不 能 像 预期 
那样 工作 。 显 然 ， 我 们 应 该 设法 阻止 也 ;去 消费 ， 因 为 忆 帮 进来， 消费 
了 缓冲 区 中 之 前 生产 的 一 个 值 。 表 30. 1 展示 了 每 个 线程 的 动作 ， 以 及 

















它 的 调度 程序 状态 〈 就 绪 、 运 行 、 睡 眠 ) 随时 间 的 变化 。 
表 30. 1 ”追踪 线程 有 问题 的 方案 (第 1 版 ) 
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问题 产生 的 原因 很 简单 : ee 但 在 它 运 行 之 前 ， 绥 
冲 区 的 状态 改变 了 (由 于 7s，。 发 信号 给 线程 只 是 唤醒 它们 ， 上 暗示 状 
态 发 生 了 变化 (在 这 个 例子 中 ， 就 是 值 已 被 放 入 缓冲 区 ) ， 但 并 不 会 
保证 在 它 运行 之 前 状态 一 直 是 期 望 的 情况 。 信 号 的 这 种 释义 常 称 为 
Mesa 语 义 (Mesa semantic) ， 为 了 纪念 以 这 种 方式 建立 条 件 变量 的 首 
次 研究 [LR80] 。 另 一 种 释义 是 Hoare 语 义 (Hoare semantic) ， 虽 然 实 
现 难度 大 ， 但 是 会 立刻 执行 [H74]。 实 际 上 上， 几乎 所 有 
系统 都 采用 了 Mesa 语 


较 好 但 仍 有 问题 的 方案 : 使 用 吕 ile 语 句 蔡 代 
js 


























寺 运 的 是 ， 修 复 这 个 问题 很 简单 〈 见 图 30.7) : 把 if 语 句 改 为 while。 
当 消 费 者 7 被 唤醒 后 ， 立 刻 再 次 检查 共享 变量 〈c2) 。 如 果 绥 冲 区 此 
时 为 空 ， 消 费 者 束 会 回去 继续 睡眠 (c3) 。 生 产 者 中 相应 的 证 也 改 为 
While (p2) 。 








业 cond 七 cong; 

之 mutex t mutex; 

3 

4 void *producer (void *arg) { 

5 Ent. 1; 

6 for (i = 0; i < loops; i++) { 

时 Pthread mutex lock(&mutex); // pl 

8 while (count == 1) // Pp2 

9 Pthread cond wait(&cond, &mutex); // PB3 
10 put (i); // p4 

TL Pthread cond signal (&cond); // p5 

12 Pthread mutex unlock(&mutex); // p6 

13 } 

14 } 

二 9 

16 void *consumer (void *arg) { 

:7 Tl 

18 for (i = 0; i < loops; i++) { 

19 Pthread mutex lock (&mutex); al 
20 while (count == 0) 大/ -C2 
2 Pthread cond wait(&cond, &mutex); YE 
22 int tmp = get(); // c4 
23 Pthread cond signal (&cond); ees, 
24 Pthread mutex unlock (&mutex); // c6 

25 printf ("S$d\n", tmp); 

26 } 

27 } 


心 | 











图 30.7 生产 者 /消费 者 : 一 个 条 件 


由 于 Mesa 语 义 ， 我 们 要 记 住 一 条 关于 条 件 变 量 的 简单 规则 : 总 是 使 用 
while 循 环 (always use while loop) 。 虽 然 有 时 候 不 需要 重新 检查 
条 件 ， 但 这 样 做 总 是 安全 的 ， 做 了 就 开心 了 。 


但 是 ， 这 段 代码 仍然 有 一 个 问题 ， 也 是 上 文 提 到 的 两 个 问题 之 一 。 你 
能 想到 吗 ? 它 和 我 们 只 用 了 一 个 条 件 变 量 有 关 。 洽 试 弄 清楚 这 个 问题 
是 什么 ， 再 继续 阅读 。 想 一 下 ! 


ee (暂停 想 一 想 ， 或 者 闭 一 下 眼 )…… 
我 们 来 确认 一 下 你 想 得 对 不 对 。 假 设 两 个 消费 者 (7y 和 7.2) 先 运行 ， 


都 睡眠 了 (c3〉 。 生 产 者 开始 运行 ， 在 缓冲 区 放 入 一 个 值 ， 唤 醒 了 一 
个 消费 者 假定 是 7,,， ， 并 开始 睡眠 。 现 在 是 一 个 消费 者 马上 要 运行 








量 和 whi le 语句 























-7) ， 两 个 线程 《7 和 邦 ) 都 等 竺 在 同一 个 条 件 变 量 上 。 问 题 马 上 
就 要 出 现 了 : 让 人 感到 兴奋 ! 


消费 者 Xj 醒 过 来 并 从 wait () 调用 返回 〈c3) ， 重 新 检查 条 件 (c2) ， 
发 现 缓冲 区 是 满 的 ， 消 费 了 这 个 值 (c4)〉 。 这 个 消费 者 然后 在 该 条 件 
上 发 信号 (c5)〉 ， 唤 醒 一 个 在 睡眠 的 线程 。 但 是 ， 应 该 唤醒 哪个 线程 
呢 ? 


因为 消费 者 已 经 清空 了 缓冲 区 ， 很 显然 ， 应 该 唤醒 生产 者 。 但 是 ， 如 
果 它 唤醒 了 二 (这 绝对 是 可 能 的 ， 取 决 于 等 待 队列 是 如 何 管理 的 》， 
问题 就 出 现 了 。 具体 来 说 ， 消 费 者 7 会 醒 过 来 ， 发 现 队列 为 呈 
(c2) ， 又 继续 回去 睡眠 (c3) 。 生 产 者 7 刚才 在 缓冲 区 中 放 了 一 个 
值 ， 现 在 在 睡眠 。 另 一 个 消费 者 线程 7 也 回去 睡眠 了 。3 个 线程 都 在 睡 
眠 ， 显 然 是 一 个 缺陷 。 由 表 30. 2 可 以 看 到 这 个 可 怕 灾 难 的 步骤。 





表 30.2 ”追踪 线程 ， 有 问题 的 方案 (第 2 版 ) 
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信号 显然 需要 ， 但 必须 更 有 指向 性 。 消 费 者 不 应 该 唤醒 消费 者 ， 而 应 
该 只 唤醒 生产 者 ， 反 之 亦 然 。 


单 值 缓冲 区 的 生产 者 /消费 者 方案 





解决 方案 也 很 简单 : 使 用 两 个 条 件 变 量 ， 而 不 是 一 个 ， 以 便 正 确 地 发 
在 系统 状态 改变 时 ， 哪 类 线程 应 该 唤醒 。 图 30. 8 展示 了 最 终 
的 代码 。 


1 cond 七 empty; fill; 

2 mutex t mutex; 

3 

4 void *producer (void *arg) { 

5 区 的 

6 于 GT (E07 < Lo0BSs? i++) 1{ 

7 Pthread mutex lock(&mutex); 

8 while (count == 1) 

9 Pthread cond wait (&empty, &mutex); 
10 put (i); 

11 Pthread cond signal (gfill); 

二 之 Pthread mutex unlock(&mutex); 
13 } 

14 } 

LS 

16 void *consumer (void *arg) { 

17 主 科 尼 入 冯 

18 于 G (和 二 07 生 之 G0BS; 主 直 于 六 开 

19 Pthread mutex lock(&mutex); 
20 while (count == 0) 

21 Pthread cond wait (&fill, &mutex); 
22 int tmp = get(); 

23 Pthread cond signal (&empty); 
24 Pthread mutex unlock(&mutex); 
29 printf ("S$d\n", tmp); 

26 } 

27 } 





图 30. 8 生产 者 /消费 者 : 两 个 条 件 变量 和 while 语 名 


在 上 述 代码 中 ， 生 产 者 线程 等 待 条 件 变 量 empty， 人 发 信号 给 变量 fil1。 
相应 地 ， 消 费 者 线程 等 待 fil1， 发 信号 给 empty。 这 样 做 ， 从 设计 上 避 
免 了 上 述 第 二 个 问题 : 消费 者 再 也 不 会 唤醒 消费 者 ， 生 产 者 也 不 会 唤 
根 生 产 者 。 


最 终 的 生产 者 /消费 者 方案 


我 们 现在 有 了 可 用 的 生产 者 /消费 者 方案 ， 但 不 太 通 用 。 我 们 最 后 的 修 
改 是 提高 并 发 和 效率 。 有 具体 来 说 ， 增 加 更 多 缓冲 区 槽 位 ， 这 样 在 睡眠 
之 前 ， 可 以 生产 多 个 值 。 同 样 ， 睡 眠 之 前 可 以 消费 多 个 值 。 单 个 生产 
者 和 消费 者 时 ， 这 种 方案 因为 上 下 文 切 换 少 ， 提 高 了 效率 。 多 个 生产 
者 和 消费 者 时 ， 它 甚至 支持 并 发 生产 和 消费 ， 从 而 提高 了 并 发 。 笠 运 
的 是 ， 和 现 有 方案 相 比 ， 改 动 也 很 小 。 


第 一 处 修改 是 缓冲 区 结构 本 身 ， 以 及 对 应 的 put () 和 get 0 〇 方法 ( 见 图 
30.9) 。 我 们 还 稍稍 修改 了 生产 者 和 消费 者 的 检查 条 件 ， 以 便 决 定 是 
否 要 睡眠 。 图 30. 10 展 示 了 最 终 的 等 待 和 信号 逻辑 。 生 产 者 只 有 在 绥 冲 
区 满 了 的 时 候 才 会 睡眠 〈p2) ， 消 费 者 也 只 有 在 队列 为 空 的 时 候 睡 眠 
(c2) 。 至 此 ， 我 们 解决 了 生产 者 /消费 者 问题 。 























业 int buftfer[MAX]， 
2 int fill = 0; 
3 int use = 0; 
4 int count = 0; 
5 
6 void put(int value) { 
7 buffer[fill] = value; 
8 fill = (fill + 1) % MAX; 
9 COUN 人 CE 
10 } 
11 
于 之 int get() { 
13 int tmp = buffer[usel]; 
14 use = (use + 1) % MAX; 
Ey count—--; 
16 return tmp; 
17 } 
图 30.9 ”最终 的 put () 和 get () 方法 
cond 七 empty, fill; 


2 mutex t mutex; 


void *producer (void *arg) { 





3 

4 

a 于 冰 巧 。 于 

6 fOr (三 07 生 < L6G0BSs; ++) 4 

3 Pthread mutex lock(&mutex); // pl 
8 while (count == MAX) //. B22 
9 Pthread cond wait(&empty, &mutex); /7 pp3 
10 put (i); // p4 
让 Pthread cond signal(&fil1) ， // p5 
12 Pthread mutex unlock(&mutex); ZX Bb 
13 } 

14 小 

15 

16 void *consumer (void *arg) { 

下 了 En 本 水 

18 ED 全，( 主 .二 0 和 之 L660BS2 让 守 二 ,4{ 

19 Pthread mutex lock (&mutex); /A 这 了 L 
20 while (count == 0) // G2 
2 Pthread cond wait (&fill, g&mutex); /3 
22 int tmp = get(); // c4 
23 Pthread cond signal (&empty); ZA ED 
24 Pthread mutex unlock (&mutex); /人 G6 
25 pELntf ("SaNn., Emp)y 

26 } 

27 } 


图 30. 10 ”最 终 有 效 方 案 


提示 : 对 条 件 变 量 使 用 while 不 是 if) 


多 线程 程序 在 检查 条 件 变量 时 ， 使 用 while 循 环 总 是 对 的 。if 
语句 可 能 会 对 ， 这 取决 于 发 信号 的 语义 。 因 此 ， 总 是 使 用 
while， 代 码 就 会 符合 预期 。 


对 条 件 变 量 使 用 while 循 环 ， 这 也 解决 了 假 唤醒 (spurious 
wakeup ) 的 情况 。 某 些 线程 库 中 ， 由 于 实现 的 细节 ， 有 可 能 
出 现 一 个 信号 唤醒 两 个 线程 的 情况 [L11] 。 再 次 检查 线程 的 等 
竺 条件， 假 唤醒 是 另 一 个 原因 。 





30. 3 履 盖 条 件 


现在 再 来 看 条 件 变量 的 一 个 例子 。 这 段 代码 摘自 Lampson 和 Redel1 关 于 
飞行 员 的 论文 [LR80] ， 同 一 个 小 组 首次 提出 了 上 述 的 Mesa 语 义 (Mesa 
semantic， 他 们 使 用 的 语言 是 Mesa， 因 此 而 得 名 〉。 


他 们 过 到 的 问题 通过 一 个 简单 的 例子 就 能 说 明 ， 在 这 个 例子 中 ， 是 一 
个 简单 的 多 线程 内 存 分 配 库 。 图 30. 11 是 展示 这 一 问题 的 代码 片段 。 


// how many bytes of the heap are free? 
int bytesLeft = MAX HEAP SIZE， 

















// need lock and condition 七 oo 
cond 七 c; 
mutex t m; 


void * 

allocate(int size) { 
Pthread mutex lock (&m); 
while (bytesLeft < size) 

Pthread cond wait(&c, &m); 

void *ptr = ...; // get mem from heap 
bytesLeft -= size; 
Pthread mutex unlock (&m); 
return ptr 


Pw To 
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} 





Ke) 


void freel(void *ptr, int size) { 
Pthread mutex lock (&m); 
bytesLeft += size; 
Pthread cond signal (&c); // whom to signal?? 
Pthread mutex unlock (&m); 
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DD 
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} 


图 30. 11 履 盖 条 件 的 例子 


从 代码 中 可 以 看 出 ， 当 线程 调用 进入 内 存 分 配 代 码 时 ， 它 可 能 会 因为 
内 存 不 足 而 等 待 。 相 应 的 ， 线 程 释放 内 存 时 ， 会 发 信号 说 有 更 多 内 存 
和 
上 线程 ) ? 


考 夸 以 下 场景 。 假 设 目前 没有 空 亲 内 存 ， 线 程 隐 调用 allocate(100) ， 
接着 线程 也 请求 较 少 的 内 存 ， 调 用 allocate(10) 。 有 和 7 都 等 待 在 条 件 
上 并 睡 具 ， 没 有 足够 的 空闲 内 存 来 满足 它们 的 请 求 。 


这 时 ， 假 定 第 三 个 线程 7 调用 了 free (50) 。 遗 憾 的 是 ， 当 它 发 信号 唤 
醒 等 待 线 程 时 ， 可 能 不 会 唤醒 申请 10 字 节 的 有 线程 。 而 7 线程 由 于 内 存 
不 够 ,仍然 等 待 。 因 为 不 知道 唤醒 哪个 (或 哪些 ) 线程 ， 所 以 图 中 代 
码 无 法 正常 工作 。 

















Lampson 和 Redel1 的 解决 方案 也 很 直接 : 用 pthread cond broadcast () 
代 蔡 上 述 代码 中 的 pthread _cond_signal()， 唤 醒 所 有 的 等 待 线程 。 这 
样 做 ， 确 保 了 所 有 应 该 唤醒 的 线程 都 被 唤醒 。 当 然 ， 不 利 的 一 面 是 可 
能 会 影响 性 能 ， 因 为 不 必要 地 唤醒 了 其 他 许多 等 待 的 线程 ， 它 们 本 来 
(还 ) 不 应 该 被 唤醒 。 这 些 线程 被 唤醒 后 ， 重 新 检查 条 件 ， 马 上 再 次 
睡眠 。 


Lampson 和 Redell 把 这 种 条 件 变 量 叫 作 才 盖 和 条件 ( covering 
condition) ， 因 为 它 能 覆盖 所 有 需要 唤醒 线程 的 场景 〈 保 守 策 略 ) 。 
成 本 如 上 所 述 ， 束 是 太 多 线程 被 唤醒 。 聪 明 的 读者 可 能 发 现 ， 在 单个 
条 件 变 量 的 生产 者 /消费 者 问题 中 ， 也 可 以 使 用 这 种 方法 。 但 是 ， 在 这 
个 例子 中 ， 我 们 有 更 好 的 方法 ， 因 此 用 了 它 。 一 般 来 说 ， 如 果 你 发 现 
程序 只 有 改 成 广播 信号 时 才能 工作 (但 你 认为 不 需要 ) ， 可 能 是 程序 
0 
效 的 方案 。 








30.4 小 结 





我 们 看 到 了 引入 锁 之 外 的 男 一 个 重要 同步 原 语 : 条 件 变量 。 当 茶 些 程 
序 状态 不 符合 要 求 时 ， 通 过 人 允许 线程 进入 休眠 状态 ， 条 件 变量 使 我 们 
能 够 淋 亮 地 解决 许多 重要 的 同步 问题 ， 包 括 闭 名 的 《仍然 重要 的 ) 生 
产 者 /消费 者 问题 ， 以 及 履 盖 条件。 
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Hoare 在 并 发 方面 做 了 大 量 的 理论 工作 。 不 过 ， 他 最 出 名 的 工作 可 能 还 
J 那 是 世上 最 酷 的 排序 算法 ， 至 少 本 书 的 作者 这 样 认 
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Linux 手 册页 展示 了 一 个 很 好 的 简单 例子 ， 以 说 明 为 什么 线程 可 能 会 发 
生 假 唤醒 一 一 因为 信号 /唤醒 代码 中 的 兑 态 条 件 。 
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一 篇 关于 如 何在 真实 系统 中 实际 实现 信号 和 条 件 变 量 的 极 好 论文 ， 导 
致 了 术语 “Mesa” 语 义 ， 说 明 唤 醒 意 味 着 什么 。 较 早 的 语义 由 Tony 
Hoare [LH74] 提 出 ， 于 是 被 称 为 “Hoare” 语 义 。 











[1]， 这 里 我 们 用 了 茶 种 严肃 的 古 英 语 和 虚拟 语气 形式 。 


我 们 现在 知道 ， 需 要 锁 和 条 件 变量 来 解决 各 种 相关 的 、 有 趣 的 并 发 问 
题 。 多 年 前 ， 首 先 认 识 到 这 一 点 的 人 之 中 ， 有 一 个 就 是 Edsger 
Dijkstra(〈 虽 然 很 难 知 道 确切 的 历史 [GR92] ) 。 他 出 名 是 因为 图 论 中 
著名 的 “最 短路 径 ” 算 法 [D59] ， 因 为 早期 关于 结构 化 编程 的 论战 
“Goto 语 句 是 有 害 的 ”[D68a] (这 是 一 个 极 好 的 标题 ! ) ， 还 因为 他 
引入 了 名 为 信号 量 [D68b，D72] 的 同步 原 语 ， 正 是 这 里 我 们 要 学 习 的 。 
事实 上 ，Dijkstra 及 其 同事 发 明了 信号 量 ， 作 为 与 同步 有 关 的 所 有 工 
作 的 唯一 原 语 。 你 会 看 到 ， 可 以 使 用 信号 量 作为 锁 和 条 件 变量 。 








关键 问题 : 如 何 使 用 信和 号 量 ? 


如 何 使 用 信号 量 代 蔡 锁 和 条 件 变量 ? 什么 
二 值 信号 量 ? 用 锁 和 条 件 变 量 来 实现 信和 号 
锁 和 条 件 变量 ， 如 何 实现 信号 量 ? 


| 三: 


是 信号 量 ? 什么 是 
量 是 否 


是 否 简单 ? 不 用 




















31.1 信号 量 的 定义 


信号 量 是 有 一 个 整数 值 的 对 象 ， 可 以 用 两 个 函数 来 操作 它 。 在 POSIX 标 
准 中 ， 是 sem wait 0 和 sem post (+ 十 。 因 为 信号 量 的 初始 值 能 够 决定 
A 能 调用 其 他 函数 与 之 交互 ， 如 
31. 1 所 示 。 


下 #include <semaphore.n> 
之 Sem 七 s; 
3 sem init(&s, 0, 1); 


图 31.1 初始 化 信号 量 


其 中 申明 了 一 个 信号 量 s， 通 过 第 三 个 参数 ， 将 它 的 值 初 始 化 为 1。 
sem_init () 的 第 二 个 参数 ， 在 我 们 看 到 的 所 有 例子 中 都 设置 为 0， 表 示 
信号 量 是 在 同一 进程 的 多 个 线程 共享 的 。 读 者 可 以 参考 手册 ， 了 解 信 
号 量 的 其 他 用 法 “ 即 如何 用 于 跨 不 同 进程 的 同步 访问 ) ， 这 要 求 第 二 
个 参数 用 不 同 的 值 。 


信号 量 初始 化 之 后 ， 我 们 可 以 调用 sem_wait (0 或 sem_ post (0 与 之 交 
互 。 图 31. 2 展示 了 这 两 个 函数 的 不 同行 为 。 


我 们 暂时 不 关注 这 两 个 函数 的 实现 ， 这 显然 是 需要 注意 的 。 多 个 线程 
会 调用 sem wait() 和 sem post()， 显 然 需要 管理 这 些 临 界 区 。 我 们 首 
先 关 注 如何 使 用 这 些 原 语 ， 稍 后 再 讨论 如 何 实现 。 

int sem wait (sem t *s) { 


decrement the value of semaphore s by one 
wait if value of semaphore s is negative 























int sem post(sem t *s) { 
increment the value of semaphore s by one 
if there are one or more threads waiting, wake one 











OO TO WD 


图 31. 2 信号 量 : Wait 和 Post 的 定义 


我 们 应 该 讨论 这 些 接 口 的 几 个 突出 方面 。 首 先 ，sem wait (要 么 立刻 
返回 (调用 sem wait (时 ， 信 号 量 的 值 大 于 等 于 1) ， 要 么 会 让 调用 线 
程 挂 起 ， 直 到 之 后 的 一 个 post 操 作 。 当 然 ， 也 可 能 多 个 调用 线程 都 调 
用 sem wait() ， 因 此 都 在 队列 中 等 待 被 唤醒 。 


其 次 ，sem post () 并 没有 等 待 茶 些 条 件 满足 。 它 直接 增加 信和 号 量 的 
值 ， 如 果 有 等 待 线程 ， 唤 醒 其 中 一 个 。 


最 后 ， 当 信和 号 量 的 值 为 负数 时 ， 这 个 值 就 是 等 待 线程 的 个 数 [D68bj] 。 
虽然 这 个 值 通常 不 会 暴露 给 信号 量 的 使 用 者 ， 但 这 个 恒定 的 关系 值得 
了 解 ， 可 能 有 助 于 记 住 信号 量 的 工作 原理 。 


先 〈( 和 暂时 ) 不 用 考虑 信号 量 内 的 竞争 条 件 ， 假 设 这 些 操 作 都 是 原子 
的 。 我 们 很 快 就 会 用 锁 和 条 件 变量 来 实现 。 












































31.2 二 值 信号 量 《〈 锁 ) 


现在 我 们 要 使 用 信号 量 了 。 信 和 号 量 的 第 一 种 用 法 是 我 们 已 经 熟悉 的 : 
用 信号 量 作为 锁 。 在 图 31. 3 所 示 的 代码 片段 里 ， 我 们 直接 把 临界 区 用 
一 对 sem wait 0 /sem post (0 环绕 。 但 是 ， 为 了 使 这 段 代 码 正 常 工 作 ， 
信号 量 m 的 初始 值 (图 中 初始 化 为 了 是 至 关 重 要 的 。4 飞 该 是 多 少 呢 ? 


Sem 七 m; 
sem init(g&gm, 0, XxX); // initialize semaphore to XxX; what should X be? 


sem wait (&m); 
// critical section here 
sem post (gm); 


ONODP 








图 31. 3 ”二 值 信号 量 〈 就 是 锁 ) 

ee (读者 先 思考 一 下 再 继续 学 习 )……… 

回顾 sem_wait () 和 sem post 0 函数 的 定义 ， 我 们 发 现 初 值 应 该 是 1。 

为 了 说 明 清楚 ， 我 们 假设 有 两 个 线程 的 场景 。 第 一 个 线程 〈 线 程 0) 调 
用 了 sem wait()， 它 把 信号 量 的 值 减 为 0。 然 后 ， 它 只 会 在 值 小 于 0 时 
等 待 。 因 为 值 是 0， 调 用 线程 从 函数 返回 并 继续 ， 线 程 0 现在 可 以 自由 
进入 徇 界 低 。 线程 0 在 临界 区 中 ， 如 果 没 有 其 他 线程 尝试 获取 锁 ， 当 它 
调用 sem post (时 ， 会 将 信号 量 重 置 为 1 (因为 没有 等 待 线程 ， 不 会 唤 
醒 其 他 线程 ) 。 表 31. 1 追踪 了 这 一 场景 。 


表 31.1 追踪 线程 : 单线 程 使 用 一 个 信号 量 


el 























和 











(临界 区 ) 


如 果 线 程 0 持 有 锁 〈 即 调用 了 sem wait() 之 后 ， 调 用 sem post (0 之 
前 ) ， 另 一 个 线程 〈 线 程 1) 调用 sem wait (尝试 进入 临界 区 ， 那 么 更 
有 趣 的 情况 就 发 生 了 。 这 种 情况 下 ， 线程 1 把 信号 量 减 为 =1， 然 后 等 待 
(自己 睡眠 ， 放 弃 处 理 器 ) 。 线 程 0 再 次 运行 ， 它 最 终 调 用 
sem_post() ， 将 信号 量 的 值 增加 到 0， 唤 醒 等 待 的 线程 〈 线 程 1) ， 然 
后 线程 1 就 可 以 获取 锁 。 线 程 1 执行 结束 时 ， 再 次 增加 信和 号 量 的 值 ， 将 
它 恢复 为 1。 

表 31. 2 追踪 了 这 个 例子 。 除 了 线程 的 动作 ， 表 中 还 显示 了 每 一 个 线程 
的 调度 程序 状态 (scheduler state) : 运行 、 就 绪 〈 即 可 运行 但 没有 
运行 ) 和 睡眠 。 特 别 要 注意 ， 当 线程 1 党 试 获取 已 经 被 持 有 的 锁 时 ， 陷 
入 睡眠 。 只 有 线程 0 再 次 运行 之 后 ， 线 程 1 才 可 能 会 唤醒 并 继续 运行 。 


表 31. 2 追踪 线程 : 两 个 线程 使 用 一 个 信号 量 
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如 果 你 想 追 踪 自 己 的 例子 ， 那 么 请 尝试 一 个 场景 ， 多 个 线程 排队 等 待 
锁 。 在 这 样 的 追踪 中 ， 信 号 量 的 值 会 是 什么 ? 

我 们 可 以 用 信号 量 来 实现 锁 了 。 因 为 锁 只 有 两 个 状态 《〈 持 有 和 没 持 
有 ) ， 所 以 这 种 用 法 有 时 也 叫 作 二 值 信 号 量 (binary semaphore) 。 
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事实 上 这 种 信号 量 也 有 一 些 更 简单 的 实现 ， 我 们 这 里 使 用 了 更 为 通用 
的 信和 号 量 作为 锁 。 


31.3 信号 量 用 作 条 件 变量 





言 写 量 也 可 以 用 在 一 个 线程 暂停 执行 ， 等 待 某 一 条 件 成 立 的 场景 。 例 
如 ， 一 个 线程 要 等 待 一 个 链表 非 空 ， 然 后 才能 删除 一 个 元 素 。 在 这 种 
场景 下 ， 通 第 一 个 线程 等 竺 条件 成 立 ， 另 外 一 个 线程 修改 条 件 并 发 信 
号 给 等 待 线程 ， 从 而 唤醒 等 待 线程 。 因 为 等 待 线程 在 等 待 某 些 条 件 
(condition ) 发 生变 化 ， 所 以 我 们 将 信号 量 作为 条 件 变 量 


(condition variable) 。 


下 面 是 一 个 简单 例子 。 假 设 一 个 线程 创建 另外 一 线程 ， 并 且 等 待 它 结 
束 〈 见 图 31.4) 。 








1 Sem 七 s; 

乙 

3 Void * 

4 child(void *arg) { 

5S Drintf£ ("ohiLlda\a™)> 

6 sem post(&s); // signal here: child is done 
7 return NULL; 

8 } 

9 

10 int 

11 main(int argc, char *argv[]) { 

12 sem initl(&s, 0, X); // what should X be? 
13 printf("parent: begin\n"); 

14 pthread t c; 

.3 Pthread create(c, NULL, child, NULL); 

16 sem wait(&s); // wait here for child 

17 printf ("parent: end\n"); 

18 return 0; 

19 } 





图 31. 4” 父 线程 等 待 子 线程 
该 程序 运行 时 ， 我 们 希望 能 看 到 这 样 的 输出 : 


parent: begin 
child 
parent: end 











然后 问题 就 是 如 何 用 信和 号 量 来 实现 这 种 效果 。 结 果 表 明 ， 答 案 也 很 容 
易 理 解 。 从 代码 中 可 知 ， 父 线程 调用 sem wait ， 子 线程 调用 
sem_post () ， 父 线程 等 待 子 线程 执行 完成 。 但 是 ， 问 题 来 了 : 信和 号 量 
的 初始 值 应 该 是 多 少 ? 


(再 想 一 下 ， 然 后 继续 阅读 ) 


当然 ， 答 案 是 信号 量 初始 值 应 该 是 0。 有 两 种 情况 需要 考虑 。 第 一 种 ， 
父 线程 创建 了 子 线程 ， 但 是 子 线程 并 没有 运行 。 这 种 情况 下 〈 见 表 
31.3) ， 父 线程 调用 sem_wait 0 会 先 于 子 线程 调用 sem_post (0) 。 我 们 
希望 父 线程 等 待 子 线程 运行 。 为 此 ， 唯 一 的 办 法 是 让 信号 量 的 值 不 大 
于 0。 因 此 ，0 为 初 值 。 父 线程 运行 ， 将 信号 量 减 为 -1， 然 后 睡眠 等 
待 ， 子 线程 运行 的 时 候 ， 调 用 sem_post 0 ， 信 号 量 增加 为 0， 唤 醒 父 线 
程 ， 父 线程 然后 从 sem wait (返回 ， 完 成 该 程序 。 











表 31.3 和 追踪 线程 ， 父 线程 等 待 子 线程 (场景 1) 
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0 就 绪 四 运行 
| 就 绪 i 切换 到 一 父 线 程 


第 二 种 情况 是 子 线程 在 父 线 程 调 用 sem_wait (0) 之 前 就 运行 结束 〈 见 表 
31.4) 。 在 这 种 情况 下 ， 子 线程 会 先 调用 sem_post ()， 将 信号 量 从 0 增 
加 到 1。 然 后 当 父 线程 有 机 会 运行 时 ， 会 调用 sem wait ()， 发 现 信 号 量 
的 值 为 1。 于 是 父 线程 将 信号 量 从 1 减 为 0， 没 有 等 待 ， 直 接 从 
sem wait (返回 ， 也 达到 了 预期 效果 。 


























表 31.4 追踪 线程 ， 父 线程 等 待 子 线程 (场景 2) 
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31.4 生产 者 /消费 者 〈 有 界 缓冲 区 ) 问题 

















本 章 的 下 一 个 问题 是 生产 者 /消费 者 (producer/consumer) 问题 ， 有 
时 称 为 有 界 缓冲 区 问题 [D72] 。 第 30 章 讲 条 件 变量 时 已 经 详细 描述 了 这 
一 问题 ， 细 节 请 参考 相应 内 容 。 


第 一 次 尝试 


第 一 次 尝试 解决 该 问题 时 ， 我 们 用 两 个 信号 量 empty 和 ful1 分 别 表示 组 
冲 区 空 或 者 满 。 图 31. 5 是 put 0 和 get 0 函数 ， 图 31. 6 是 我 们 尝试 解决 
生产 者 /消费 者 问题 的 代码 。 


int buffer[MAX]; 
工 记 蕊 朱宇 本 开 三 > 
int use = 0; 


void put (int value) { 
buffer[fill] = value; /7 ine E1 
fill = (fill + 1) 多 MAX; // line f2 


OJONBYVDP 


10 int get() { 


11 int tmp = bufferl[lusel]; // line gl 
EE 之 use = (use + 1) % MAX; /7 line 2 
13 return tmp; 

14 } 


图 31. 5 put (和 get (函数 


1 sem t empty; 
2 sem t fuill; 





4 void *producer (void *arg) { 

5 汪 仙 已 秆 交 

6 下 刁 闪 i( 宣 二 0 全 守之 OOBS 宇 寺 二 六 十 

7 sem wait (&empty); // line Pl1 
8 put (i); // line P2 
9 sem post (&full); // line P3 
10 } 

二 汪 } 

1 

3 void *consumer (void *arg) { 

14 Ent tmp 03 

ls while (tmp != -1) { 

16 sem wait (&full); // line C1 

于 水 tmp = get(); // line C2 
18 sem post (&empty); 人 /Line G3 
19 printf ("S$d\n", tmp); 

20 } 

21 } 

22 

23 int main(int argc, char *argv[]) { 

24 Ye 

23 sem init(&empty, 0, MAX); // MAX buffers are empty to begin with... 
26 sem init(g&full, 0, 0); py te 过 王 e 泛 和 于 
27 Le 

28 } 














图 31.6 增加 full 和 empty 条 件 


本 例 中 ， 生 产 者 等 待 缓冲 区 为 空 ， 然 后 加 入 数据 。 类 似 地 ， 消 费 者 等 
竺 缓冲 区 变 成 有 数据 的 状态 ， 然 后 取 走 数据 。 我 们 先 假设 MAX=1 (数组 
中 只 有 一 个 缓冲 区 ) ， 验 证 程序 是 否 有 效 。 


假设 有 两 个 线程 ， 一 个 生产 者 和 一 个 消费 者 。 我 们 来 看 在 一 个 CPU 上 的 
具体 场景 。 消 费 者 先 运 行 ， 执 行 到 C1 行 ， 调 用 sem wait (&full) 。 因 为 
full 初 始 值 为 0%，wait 调 用 会 将 full 减 为 -1， 导 至 消费 者 睡眠 ， 等 待 男 
一 个 线程 调用 sem post (&full)， 符 合 预 期 。 


假设 生产 者 然后 运行 。 执 行 到 P1 行 ， 调 用 sem_wait (&empty) 。 不 像 消 
费 者 ， 生 产 者 将 继续 执行 ， 因 为 empty 被 初始 化 为 MAX (在 这 里 是 1)。 
因此 ，empty 被 减 为 0， 生 产 者 向 缓冲 区 中 加 入 数据 ， 然 后 执行 P3 行 ， 
调用 sem_ post ful1) ， 把 ful1 从 -1 变 成 0， 唤 醒 消 费 者 《即将 它 从 阻 
塞 变 成 就 续 ) 。 


在 这 种 情况 下 ， 可 能 会 有 两 种 情况 。 如 果 生 产 者 继续 执行 ， 再 次 循环 
到 Pl 行 ， 由 于 empty 值 为 0， 它 会 阻 窟 。 如 果 生 产 者 被 中 断 ， 而 消费 者 
开始 执行 ， 调 用 sem wait (&full) (cl 行 )， 发 现 缓冲 区 确实 满 了 ， 消 
费 它 。 这 两 种 情况 都 是 符合 预期 的 。 





你 可 以 用 更 多 的 线程 来 答 试 这 个 例子 〈 即 多 个 生产 者 和 多 个 消费 
者 ) 。 它 应 该 仍然 正常 运行 。 


我 们 现在 假设 MAX 大 于 1 (比如 MAX=10〉 。 对 于 这 个 例子 ， 假 定 有 多 个 
生产 者 ， 多 个 消费 者 。 现 在 就 有 问题 了 : 竞 态 条 件 。 你 能 够 发 现 是 哪 
里 产生 的 吗 ? ( 花 点 时 间 找 一 下 〉 如果 没 有 发 现 ， 不 妨 仔细 观察 put () 
和 get (的 代码 。 


好 ， 我 们 来 理解 该 问题 。 假 设 两 个 生产 者 (Pa 和 Pb〉 几乎 同时 调用 
put () 。 当 Pa 先 运行 ， 在 f1 行 先 加 入 第 一 条 数据 (fil1=0) ， 假 设 Pa 在 
将 fil1 计 数 器 更 新 为 1 之 前 被 中 断 ，Pb 开 始 运 行 ， 也 在 f1 行 给 缓冲 区 的 
0 位 置 加 入 一 条 数据 ， 这 意味 着 那里 的 老 数据 被 覆盖 ! 这 可 不 行 ， 我 们 
不 能 让 生产 者 的 数据 丢失 。 








解决 方案 : 增加 互 斥 


你 可 以 看 到 ， 这 里 忘 了 互 斥 。 同 缓冲 区 加 入 元 素 和 增加 缓冲 区 的 索引 
是 临界 区 ， 需 要 小 心 保护 起 来 。 所 以 ， 我 们 使 用 二 值 信号 量 来 增加 
锁 。 图 31. 7 是 对 应 的 代码 。 
























































1 sem t empty; 

2 sem t fuill; 

3 sem t mutex; 

4 

3 void *producer (void *arg) { 

6 主人 已 守 % 

7 for (i = 0; i < loops; i++) { 

8 sem wait (&mutex); // line pO (NEW LINE) 
9 sem wait (&empty); // line pl 

10 Put (LY); // line p2 

L1 sem post (&full); // line p3 

12 sem post (&mutex); // line p4 (NEW LINE) 
1i3 } 

14 } 

15 

16 void *consumer (void *arg) { 

|. 2 

18 fo (= 提交 和 LOOBS> 让 44 二》 4 

19 sem wait (&mutex); // line c0 (NEW LINE) 
20 sem wait (&full); // Line. Cy 

21 int tmp = get(); // line c2 

22 sem post (&empty); // line c3 

2.3 sem post (&mutex); // line c4 (NEW LINE) 
24 printf ("S$d\n", tmp); 


26 } 














27 

28 int main(int argc char *argv[]) { 

29 

30 sem init(&empty, 0, MAX); // MAX buffers are empty to begin with... 
31 sem init(g&full, 0, 0); // ... and 0 are full 

32 sem init(&gmutex, 0, 1); // mutex=1 because it is a lock (NEW LINE) 
33 J 

34 } 


图 31. 7 增加 互 斥 量 〈 不 正确 的 ) 


现在 我 们 给 整个 put () /get 0 部 分 都 增加 了 锁 ， 注 释 中 有 NEW LINE 的 几 
行 就 是 。 这 似乎 是 正确 的 思路 ， 但 仍然 有 问题 。 为 什么 ? 死 锁 。 为 什 
么 会 发 生死 锁 ? 考虑 一 下 ， 尝 试 找 出 一 个 死 锁 的 场景 。 必 须 以 怎样 的 
步骤 执行 ， 会 导致 程序 死 锁 ? 


避免 死 锁 


好 ， 既 然 你 想 出 来 了 ， 下 面 是 答案 。 假 设 有 两 个 线程 ， 一 个 生产 者 和 
一 个 消费 者 。 消 费 者 首先 运行 ， 获 得 锁 〈c0 行 ) ， 然 后 对 ful1 信 号 量 
执行 sem wait() 〈cl 行 ) 。 因 为 还 没有 数据 ， 所 以 消费 者 阻塞 ， 让 出 
CPU。 但 是 ， 重 要 的 是 ， 此 时 消费 者 仍然 持 有 和 锁 。 


然后 生产 者 运行 。 假 如 生产 者 能 够 运行 ， 它 就 能 生产 数据 并 唤醒 消费 
者 线程 。 遗 憾 的 是 ， 它 首先 对 二 值 互 斥 信号 量 调用 sem_ wait() (p0 
行 )。 锁 已 经 被 持 有 ， 因 此 生产 者 也 被 卡 住 。 


这 里 出 现 了 一 个 循环 等 待 。 消 费 者 持 有 互 斥 量 ， 等 竺 在 ful1 信 和 号 量 
上 。 生 产 者 可 以 发 送 ful1 信 号 ， 却 在 等 待 互 斥 量 。 因 此 ， 生 产 者 和 消 
费 者 互相 等 竺 对 方 一 一 典型 的 死 锁 。 

















最 后 ， 可 行 的 方案 


要 解决 这 个 问题 ， 只 需 减 少 锁 的 作用 域 。 图 31. 8 是 最 终 的 可 行 方 案 。 
可 以 看 到 ， 我 们 把 获取 和 释放 互 斥 量 的 操作 调整 为 紧 换 着 临界 区 ， 把 
full1、empty 的 唤醒 和 等 竺 操作 调整 到 锁 外 面 。 结 果 得 到 了 简单 而 有 效 
的 有 界 缓冲 区 ， 多 线程 程序 的 常用 模式 。 现 在 理解 ， 将 来 使 用 。 未 来 
0 
感谢 我 们 。 



























































业 sem 七 empty; 

2 sem t fuill; 

3 sem t mutex; 

4 

5 void *producer (void *arg) { 

6 主 站 蕊 定 元 

7 for (i = 0; i < loops; i++) { 

8 sem wait (&empty); // line pl 

9 sem wait (&mutex); // line pl.5 (MOVED MUTEX HERE...) 
10 put (i); // line p2 

由 于 sem Post (&mutex); // line p2.5 (... AND HERE) 
1 sem post (&full); // line p3 

L3 } 

14 } 

1 

16 void *consumer (void *arg) { 

17 主 注 交 

18 for (i = 0; i < loops; i++) { 

19 sem wait (&full); // line cl 

20 sem wait (&mutex); // line cl.5 (MOVED MUTEX HERE...) 
21 int tmp = get(); // line c2 

22 sem post (&mutex); // line c2.5 (... AND HERE) 
23 sem post (&empty); // line c3 

24 printf("%Sd\n"; tmp); 

25 } 

26 } 

27 

28 int main(int argc, char *argv[]) { 

29 Lf ag 

30 sem init(&empty, 0, MAX); // MAX buffers are empty to begin with... 
3 sem init(g&full, 0, 0); // ... and 0 are full 

32 sem init(&mutex, 0, 1); // mutex=1 because it is a lock 
33 A 

34 } 





D3 














31.8 增加 互 斥 量 〈 正 确 的 ) 


31.5 读者 一 写 者 锁 


男 一 个 经 典 问 题 源 于 对 更 加 灵活 的 锁定 原 语 的 淘 望 ， 它 承认 不 同 的 数 
据 结构 访问 可 能 需要 不 同类 型 的 锁 。 例 如 ， 一 个 并 发 链表 有 很 多 插入 





和 查找 操作 。 插 入 操作 会 修改 链表 的 状态 (因此 传统 的 临界 区 有 
用 ) ， 而 查找 操作 只 是 读 取 该 结构 ， 只 要 没有 进行 插入 操作 ， 我 们 可 
以 并 发 的 执行 多 个 查找 操作 。 读者 一 写 者 锁 (reader-writer lock) 
就 是 用 来 完成 这 种 操作 的 [CHP71] 。 图 31. 9 是 这 种 锁 的 代码 。 


代码 很 简单 。 如 果菜 个 线程 要 更 新 数据 结构 ， 需 要 调用 
rwlock acquire lock() 获得 写 锁 ， 调 用 rwlock release writelock() 
释放 锁 。 内 部 通过 一 个 writelock 的 信号 量 保证 只 有 一 个 写 者 能 获得 锁 
进入 临界 区 ， 从 而 更 新 数据 结构 。 























1 typedef struct rwlock 七 { 

2 sem t lock; // binary semaphore (basic lock) 

3 sem t writelock; // used to allow ONE writer or MANY readers 
4 nt readers; // count of readers reading in critical section 
5 } rwlock t; 

6 

学 void rwlock init (rwlock 七 *rw) { 

8 rw->readers = 0; 

9 sem init(&rw->lock, 0, 1); 

10 sem init(&rw->writelock, 0, 1); 

i } 

2 

.3 void rwlock acquire readlock(rwlock 七 *rw) { 

14 sem wait (&rw->lock); 

1 rw->readerst+t+; 

16 if (rw->readers == 1) 

17 sem wait (&rw->writelock); // first reader acquires writelock 
由 8 sem post(&rw->lock); 

19 } 

20 

21 void rwlock release readlock(rwlock t *rw) { 

22 sem wait (&rw->lock); 

23 rw->readers--;} 

24 if (rw->readers == 0) 

25 sem post (&rw->writelock); // last reader releases writelock 
26 sem post(&rw->lock); 

之 } 

28 

29 void rwlock acquire writelock(rwlock 七 *rw) { 

30 sem wait (grw->writelock); 

中 } 

22 

exe void rwlock release writelock(rwlock 七 *rw) { 

34 sem Post (&rw->writelock); 

35 } 





图 31. 9 一 个 简单 的 读者 - 写 者 锁 


读 锁 的 获取 和 释放 操作 更 加 吸引 人 。 获 取 读 锁 时 ， 读 者 首先 要 获取 
lock， 然 后 增加 reader 变 量 ， 追 踪 目 前 有 和 多少 个 读者 在 访问 该 数据 结 
构 。 重 要 的 步 又 然后 在 rwlock acquire readlock (内 发 生 ， 当 第 一 











读者 获取 该 锁 时 。 在 这 种 情况 下 ， 读 者 也 会 获取 写 锁 ， 即 在 writelock 
信号 量 上 调用 sem_wait (0) ， 最 后 调用 sem_ post () 释放 lock。 


一 旦 一 个 读者 获得 了 读 锁 ， 其 他 的 读者 也 可 以 获取 这 个 读 锁 。 但 是 ， 
想 要 获取 写 锁 的 线程 ， 就 必须 等 到 所 有 的 读者 都 结束 。 最 后 一 个 退出 
的 写 者 在 “writelock” 信 号 量 上 调用 sem post ()， 从 而 让 等 待 的 写 者 
能 够 获取 该 锁 。 


提示 : 简单 的 笨 办 法 可 能 更 好 (Hil1 定 律 ) 


我 们 不 能 小 看 一 个 概念 ， 即 简单 的 答 办 法 可 能 最 好 。 某 些 时 
候 简 单 的 自 旋 锁 反 而 是 最 有 效 的 ， 因 为 它 容 易 实现 而 且 蜗 
效 。 虽 然 读者 一 写 者 锁 听 起 来 很 酷 ， 但 是 却 很 复杂 ， 复 杂 可 
能 意味 着 慢 。 因 此 ， 总 是 优先 尝试 简单 的 举办 法 。 


这 种 受 简 单 吸 引 的 思想 ， 在 多 个 地 方 都 能 发 现 。 一 个 早期 来 
源 是 Mark Hill 的 学 位 论文 [H87]， 研 究 如 何 为 CPU 设计 缓存 。 
Hill 发 现 简 单 的 直接 映射 缓存 比 花哨 的 集合 关联 性 设计 更 加 
有 效 《 一 个 原因 是 在 缓存 中 ， 越 简单 的 设计 ， 越 能 够 更 快 地 
查找 ) 。Hill 简 洁 地 总 结 了 他 的 工作 : “大 而 笨 更 好 。” 因 
此 我 们 将 这 种 类 似 的 建议 叫 作 Hill 定 律 (Hil1”s Law) 。 

















这 一 方案 可 行 〈 符 合 预期 ) ， 但 有 一 些 缺 陷 ， 尤 其 是 公平 性 。 读 者 很 
容易 饿 死 号 者 。 存 在 复杂 一 些 的 解决 方案 ， 也 许 你 可 以 想到 更 好 的 实 
现 ? 提示 : 有 写 者 等 待 时 ， 如 何 能 够 避免 更 多 的 读者 进入 并 持 有 锁 。 


最 后 ， 应 该 指出 ， 读 者 - 写 者 锁 还 有 一 些 注意 点 。 它 们 通常 加 入 了 更 多 
开锁 〈 尤 其 是 更 复杂 的 实现 ) ， 因 此 和 其 他 一 些 简单 快速 的 锁 相 比 ， 
读者 写 者 锁 在 性 能 方面 没有 优势 [CB08] 。 无 论 哪 种 方式 ， 它 们 都 再 次 
展示 了 如 何以 有 趣 、 有 用 的 方式 来 使 用 信号 量 。 











31.6 哲学 家 就 餐 问 题 


哲学 家 就 餐 问 题 (dining philosopher”s problem) 是 一 个 著名 的 并 
发 问题 ， 它 由 Dijkstra 提 出 来 并 解决 LDHO71] 。 这 个 问题 之 所 以 出 名 ， 
是 因为 它 很 有 趣 ， 引 人 入 胜 ， 但 其 实用 性 却 不 强 。 可 是 ， 它 的 名 气 让 
我 们 在 这 里 必须 讲 。 实 际 上 ， 你 可 能 会 在 面试 中 遇 到 这 一 问题 ， 假 如 
老师 没有 提 过 ， 导 致 你 们 没有 通过 面试 ， 你 们 会 贡 怪 操作 系统 老师 
的 。 因 此 ， 我 们 这 里 会 讨论 这 一 问题 。 假 如 你 们 因为 这 个 问题 得 到 工 
作 ， 可 以 向 操作 系统 老师 发 感谢 信 ， 或 者 发 一 些 股 票 期 权 。 


这 个 问题 的 基本 情况 是 〈 见 图 31. 10) : 假定 有 5 位 “哲学 家 ” 围 着 一 
个 圆桌 。 每 两 位 哲学 家 之 间 有 一 把 和 餐 又 《一 共 5 把 ) 。 哲 学 家 有 时 要 有 思 
考 一 会 ， 不 需要 餐 又 ;有 时 又 要 就 餐 。 而 一 位 哲学 家 只 有 同时 拿 到 了 
左手 边 和 右手 边 的 两 把 餐 又 ， 才 能 吃 到 东西 。 关 于 和 餐 叉 的 竞争 以 及 随 
之 而 来 的 同步 问题 ， 就 是 我 们 在 并 发 编程 中 研究 它 的 原因 。 





图 31. 10 


哲学 家 就 餐 问 








涡 


下 面 是 每 个 哲学 家 的 基本 循环 : 


while (1) { 
thiimk()s 
getforks (); 
eat (); 
putforks (); 


关键 的 挑战 就 是 如 何 实现 getforks 和 putforks () 函数 ， 保 证 没有 和 死 
锁 ， 没 有 哲学 家 俄 死 ， 并 且 并 发 度 更 高 〈 尽 可 能 让 更 多 哲学 家 同时 吃 
东西 ) 。 


根据 Downey 的 解决 方案 [D08] ， 我 们 会 用 一 些 辅 助 函数 ， 帮 助 构建 解决 


方案 。 它 们 是 : 





int left(int p) { return p; } 
int. right(int %) { returen (B+ 1) SG 5» } 


如 果 哲 学 家 p 希 望 用 左手 边 的 义 子 ， 他 们 就 调用 left (p) 。 类 似 地 ， 石 
手边 的 又 子 就 用 right (p) 。 模 运算 解决 了 最 后 一 个 哲学 家 (p = 4) 右 
手边 又 子 的 编号 问题 ， 就 是 餐 又 0。 


我 们 需要 一 些 信 号 量 来 解决 这 个 问题 。 假 设 需要 5 个 ， 每 个 餐 叉 一 个 : 
sem t forks[5]。 





有 问题 的 解决 方案 








我 们 开始 第 一 次 答 试 。 假 设 我 们 把 每 个 信号 量 〈 在 fork 数 组 中 ) 都 用 1 
初始 化 。 同 时 假设 每 个 哲学 家 知道 自己 的 编号 (p) 。 我 们 可 以 写 出 
getforks () 和 putforks () 函数 ， 如 图 31. 11 所 示 。 


void getforks () 
sem wait (forks[left (p)]); 
sem wait (forks[right (p)]); 
} 


void putforks () 
sem post (forks[left (p)]); 
sem post (forks[right (p)]1); 

下 





\D co ~ OUWU 己 WON 哺 


图 31. 11 getforks () 和 putforks() 函数 


这 个 《有 问题 的 ) 解决 方案 背后 的 思路 如 下 。 为 了 拿 到 餐 义 ,我 们 依 
次 获取 每 把 餐 叉 的 锁 一 一 先是 左手 边 的， 然后 是 右手 边 的 。 结 束 就 餐 
时 ， 释 放 掉 锁 。 很 简单 ， 不 是 吗 ? 但 是 ， 在 这 个 例子 中 ， 简 单 是 有 问 
题 的 。 你 能 看 到 问题 吗 ? 想 一 想 。 


问题 是 死 锁 〈deadlock) 。 假 设 每 个 哲学 家 都 拿 到 了 左手 边 的 餐 叉 ， 
他 们 每 个 都 会 阻塞 住 ， 并 且 一 直 等 待 另 一 个 餐 又 。 具 体 来 说 ， 哲 学 家 0 
拿 到 了 和 餐 双 0， 哲学 家 1 拿 到 了 和 餐 又 1， 哲 学 家 2 拿 到 餐 又 2， 哲 学 家 3 拿 
到 和 餐 又 3， 哲 学 家 4 拿 到 餐 又 4。 所 有 的 餐 又 都 被 占有 了 ， 所 有 的 哲学 家 
都 阻塞 着 ， 并 且 等 待 另 一 个 哲学 家 占有 的 餐 又 。 我 们 在 后 续 章 节 会 深 
入 学 习 死 锁 ， 这 里 只 要 知道 这 个 方案 行 不 通 就 可 以 了 。 


一 种 方案 : 破除 依赖 














解决 上 述 问 题 最 简单 的 方法 ， 就 是 修改 某 个 或 者 某 些 哲学 家 的 取 餐 又 
顺序 。 事 实 上 ，Dijkstra 自 己 也 是 这 样 解决 的 。 具 体 来 说 ， 假 定 哲 学 
家 4 编写 最 大 的 一 个 ) 取 和 餐 义 的 顺序 不 同 。 相 应 的 代码 如 下 : 


下 void getforks() { 

2 if (p == 4) { 

3 sem wait (forks[right (p)]1); 
4 sem wait (forks[left (p)]); 
5 } else { 

6 sem wait (forks[left (p)]); 
7 sem wait (forks [right (p)1); 
8 } 

9 } 











因为 最 后 一 个 哲学 家 会 尝试 先 拿 右 手边 的 餐 又 ， 然 后 拿 左 手边 ， 所 以 
不 会 出 现 每 个 哲学 家 都 拿 着 一 个 餐 又 ， 卡 住 等 待 另 一 个 的 情况 ， 等 待 
循环 被 打破 了 。 想 想 这 个 方案 的 后 果 ， 让 你 自己 相信 它 有 效 。 


还 有 其 他 一 些 类 似 的 “著名 ”问题 ， 比 如 吸烟 者 问题 (cigarette 
smoker”s problem) ， 理 发 师 问 题 (sleeping barber problem) 。 
大 多 数 问 题 只 是 让 我 们 去 理解 并 发 ， 某 些 问 题 的 名 字 很 吸引 人 。 感 兴 


趣 的 读者 可 以 去 查阅 相关 资料 ， 或 者 通过 一 些 更 实际 的 思考 去 理解 并 
发 行为 [D08] 。 


31.7 如 何 实现 信和 号 量 


最 后 ， 我 们 用 底层 的 同步 原 语 ( 锁 和 条 件 变 量 ) ， 来 实现 自己 的 信号 
量 ， 名 字 叫 作 Zemaphore。 这 个 任务 相当 简单 ， 如 图 31. 12 所 示 。 





1 typedef struct Zemt { 

2 int value; 

3 pthread cond t condg; 

4 pthread mutex t lock; 

5 } 2em 七 

6 

孙 // only one thread can call this 
8 void Zem init(Zem t *s, int value) { 
9 s->value = value; 

10 Cond init(&s->cond); 

让 Mutex init(&s->lock); 

让 这 } 

13 

14 void Zem wait (Zem t *s) { 

Ls Mutex lock(&s->lock); 

16 while (s->value <= 0) 

王子 Cond wait (&s->cond, &s->lock); 
18 s->value--; 

19 Mutex unlock(&s->lock); 

20 } 

之 

22 void Zem post (Zem t *s) { 

23 Mutex lock(&s->lock); 

24 s->valuet+t+; 

25 Cond signal(&s->cond); 

26 Mutex unlock(&s->lock); 

27 } 


图 31. 12 ”用 锁 和 条 件 变量 实现 Zemahpore 


可 以 看 到 ， 我 们 只 用 了 一 把 锁 、 一 个 条 件 变 量 和 一 个 状态 的 变量 来 记 
录 信号 量 的 值 。 请 自己 研究 这 些 代码 ， 直 到 真正 理解 它 。 去 做 吧 ! 


我 们 实现 的 Zemaphore 和 Dijkstra 定 义 的 信号 量 有 一 点 细微 区 别 ， 束 是 
我 们 没有 保持 当 信 和 号 量 的 值 为 负数 时 ， 让 它 反映 出 等 待 的 线程 数 。 事 
实 上， 该 值 永远 不 会 小 于 0。 这 一 行为 更 容易 实现 ， 并 符合 现 有 的 
Linux 实 现 。 








提示 : 小 心 泛 化 


在 系统 设计 中 ， 泛 化 的 抽象 技术 是 很 有 用 处 的 。 一 个 好 的 想 
法 稍微 扩展 之 后 ， 就 可 以 解决 更 大 一 类 问题 。 然 而 ， 泛 化 时 
要 小 心 ， 正 如 Lampson 提 醒 我 们 的 “不 要 泛 化 。 泛 化 通 芝 都 是 
昔 的 。” [L83] 


我 们 可 以 把 信号 量 当 作 锁 和 条 件 变量 的 泛 化 。 但 这 种 泛 化 有 


必要 吗 ? 考虑 基于 信号 量 去 实现 条 件 变量 的 难度 ， 可 能 这 种 
泛 化 并 没有 你 想 的 那么 通用 。 














很 奇怪 ， 利 用 信号 量 来 实现 锁 和 条 件 变 量 ， 是 环 手 得 多 的 问题 。 茶 些 
富有 经 验 的 并 发 程序 员 曾 经 在 Windows 环 境 下 尝试 过 ， 随 之 而 来 的 是 很 
多 缺陷 [B04] 。 你 自己 试 一 下 ， 看 看 是 否 能 明白 为 什么 使 用 信号 量 实现 
条 件 变量 比 看 起 来 更 困难 。 


31.8 小 结 








信号 量 是 编写 并 发 程序 的 强大 而 灵活 的 原 语 。 有 程序 员 会 因为 简单 实 
只 用 信号 量 ， 不 用 锁 和 条 件 变量 。 


本 章 展示 了 几 个 经 典 问题 和 解决 方案 。 如 果 你 有 兴趣 了 解 更 多 ， 有 许 
多 资料 可 以 参考 。Allen Downey 关 于 并 发 和 使 用 信和 号 量 编程 的 书 [D08] 
就 很 好 (免费 的 参考 资料 ) 。 该 书包 括 了 许多 谜 题 ， 你 可 以 研究 它 
们 ， 从 而 深入 理解 具体 的 信号 量 和 一 般 的 并 发 。 成 为 一 个 并 发 专家 需 
0 30 to 
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[BO4] “Implementing Condition Variables with Semaphores” 
Andrew Birrell 


December 2004 


一 本 关于 在 信号 量 上 实现 条 件 变 量 有 多 困难 ， 以 及 作者 和 同事 在 此 过 
程 中 犯 的 错误 的 有 趣 读物 。 因 为 该 小 组 进行 了 大 量 的 并 发 编程 ， 所 以 
讲述 特别 中 肯 。 例 如 ，Birrell 以 编写 各 种 线程 编程 指南 而 闻名 。 


[CBO8] “Real-world Concurrency” Bryan Cantrill and Jeff 
Bonwick 














ACM Queue. Volume 6, No. 5. September 2008 


一 篇 很 好 的 文章 ， 来 自 一 家 以 前 名 为 Sun 的 公司 的 一 些 内 核 黑 客 ， 讨 论 
了 并 发 代码 中 面临 的 实际 问题 。 


[CHP71|] “Concurrent Control with Readers and Writers” 


P. J. Courtois, F. Heymans, D.L. Parnas Communications of the 
ACM, 14:10, October 1971 


读者 一 写 者 问题 的 介绍 以 及 一 个 简单 的 解决 方案 。 后 来 的 工作 引入 了 
更 复 洒 的 解决 方案 ， 这 里 跳 过 了 ， 因 为 它们 非常 复杂 。 








[D59] “A Note on Two Problems in Connexion with Graphs” 
E. W. Dijkstra 
Numerische Mathematik 1, 269271, 1959 


你 能 相信 人 们 在 1959 年 从 事 算法 工作 吗 ? 我 们 很 难 相 信 。 即 使 在 计算 
机 用 起 来 有 趣 之 前 ， 这 些 人 都 感觉 到 他 们 会 改变 世界 …… 


[D68aj“Go=-to Statement Considered Harmful” 


E. W. Dijkstra 


Communications of the ACM, volume 11(3): pages 147148, March 
1968 


有 时 被 认为 是 软件 工程 领域 的 开始 。 

[D68b] “The Structure of the THE Multiprogramming System” 
E. W. Dijkstra 

Communications of the ACM, volume 11(5), pages 341346, 1968 


最 早 的 论文 之 一 ， 指 出 计算 机 科学 中 的 系统 工作 是 一 项 引人入胜 的 智 
力 活 动 ， 也 为 分 层 系统 式 的 模块 化 进行 了 强烈 辩护 。 


[D72] “Information Streams Sharing a Finite Buffer” 
E. W. Dijkstra 
Information Processing Letters 1: 179180, 1972 


Dijkstra 创 造 了 一 切 吗 ? 不 ， 但 可 能 差不多 。 他 当然 是 第 一 位 明确 写 
下 并 发 代码 中 的 问题 的 人 。 然 而 ， 操 作 系 统 设计 的 从 业者 确实 知道 
Dijkstra 所 描述 的 许多 问题 ， 所 以 将 太 多 东西 归功 于 他 也 许 是 对 历史 
的 误 传 。 


[DO8] “The Little Book of Semaphores” 





A. B. Downey 


一 本 关于 信号 量 的 好 书 (而且 人 免费 ! ) 。 如 果 你 喜欢 这 样 的 事情 ， 有 
很 多 有 趣 的 问题 等 待 解决 。 


[DHO71] “Hierarchical ordering of sequential processes” 
E. W. Dijkstra 


介绍 了 许多 并 发 问题 ， 包 括 哲 学 家 就 餐 问 题 。 关 于 这 个 问题 ， 维 基 百 
科 也 给 出 了 很 丰富 的 内 容 。 


[GR92] “Transaction Processing: Concepts and Techniques” Jim 
Gray and Andreas Reuter 


Morgan Kaufmann, September 1992 


我 们 发 现 特别 幽默 的 引用 就 在 第 485 页 ， 第 8. 8 节 开 始 处 : “第 一 个 多 
处 理 器 ， 大 约 在 1960 年 ， 就 有 测试 并 设置 指令 …… 大 概 是 0S 的 实现 者 
想 出 了 正确 的 算法 ， 尺 管 通常 认为 Dijkstra 在 多 年 后 发 明 信 和 号 量 。” 











[IH87] “Aspects of Cache Memory and Instruction Buffer 
Performance” Mark D. Hill 


Ph.D. Dissertation, U.C. Berkeley, 1987 


Hill 的 学 位 论文 工作 ， 给 那些 痢 迷 于 早期 系统 缓存 的 人 。 量 化 论文 的 
一 个 很 好 的 例子 。 


[L83] “Hints for Computer Systems Design” Butler Lampson 

ACM Operating Systems Review, 15:5, October 1983 

著名 系统 研究 员 Lampson 喜 欢 在 设计 计算 机 系统 时 使 用 上 暗示。 暗示 经 常 
是 正确 的 ， 但 可 能 是 错误 的 。 在 这 种 用 法 中 ，signal 0 告诉 等 待 线程 
它 改变 了 等 待 的 条 件 ， 但 不 要 相信 当 等 待 线程 唤醒 时 条 件 将 处 于 期 望 


的 状态 。 在 这 篇 关于 系统 设计 的 上 暗示 的 文章 中 ， Lampson 的 一 般 瞳 示 
古 你 应 该 使 用 暗示 。 这 并 不 像 听 上 去 那么 令 人 困惑 。 











[1 历史 上 ，sem wait () 开始 被 Dijkstra 称 为 P() 〈 代 指 荷 兰 语 单词 

“to probe”) ， 而 sem post(0 被 称 为 VYO ( 代 指 衔 兰 语 单 词 “to 
test”) 。 有 时 候 ， 人 们 也 会 称 它们 为 下 (down)〉 和 上 (up) 。 使 用 
荷兰 语 版 本 ， 给 你 的 朋友 留 下 深刻 印象 。 


第 32 章 ”常见 并 发 问题 


多 年 来 ， 研 究 人 员 花 了 大 量 的 时 间 和 精力 研究 并 发 编程 的 缺陷 。 很 多 
早期 的 工作 是 关于 死 锁 的 ， 之 前 的 章节 也 有 提 及 ， 本 章 会 深入 学 习 
[C+71] 。 最 近 的 研究 集中 在 一 些 其 他 类 型 的 常见 并 发 缺陷 〈( 即 非 死 锁 
缺陷 ) 。 在 本 章 中 ， 我 们 会 简要 了 解 一 些 并 发 问题 的 例子 ， 以 便 更 好 
地 理解 要 注意 什么 问题 。 因 此 ， 本 章 的 关键 问题 就 是 : 


关键 问题 : 如 何 处 理 常 见 的 并 发 缺陷 


并 发 缺陷 会 有 很 多 常见 的 模式 。 了 解 这 些 模式 是 写 出 健壮 、 
正确 程序 的 第 一 步 。 





32.1 有 哪些 类 型 的 缺陷 








第 一 个 最 明显 的 问题 就 是 : 在 复杂 并 发 程序 中 ， 有 哪些 类 型 的 缺陷 
呢 ? 一 般 来 说 ， 这 个 问题 很 难 回答 ， 好 在 其 他 人 已经 做 过 相关 的 工 
作 。 具 体 来 说 ，Lu 等 人 [L+08] 详 细 分 析 了 一 些 流行 的 并 发 应 用 ， 以 理 
解 实践 中 有 哪些 类 型 的 缺陷 。 


研究 集中 在 4 个 重要 的 开源 应 用 : MySQL (流行 的 数据 库 管理 系统 ) 、 
Apache (著名 的 Web 服 务 器 ) 、Mozilla (著名 的 Web 浏 览 器 ) 和 
Open0ffice (微软 办 公 套 件 的 开源 版 本 ) 。 研 究 人 员 通 过 检查 这 几 个 
代码 库 已 修复 的 并 发 缺陷 ， 将 开发 者 的 工作 变 成 量化 的 缺陷 分 析 。 理 
解 这 些 结 果 ， 有 助 于 我 们 了 解 在 成 熟 的 代码 库 中 ， 实 际 出 现 过 哪些 类 
型 的 并 发 问题 。 





表 32. 1 是 Lu 及 其 同事 的 研究 结论 。 可 以 看 出 ， 共 有 105 个 缺 隐 ， 其 中 大 
多 数 是 非 死 锁 相 关 的 《〈74 个 ) ， 剩 余 31 个 是 死 锁 缺陷 。 另 外 ， 可 以 看 
出 每 个 应 用 的 缺陷 数目 ，0pen0ffice 只 有 8 人 个， 而 Mozilla 有 接近 60 
个 
广 。 


表 32. 1 现代 应 用 程序 的 缺陷 统计 


应 用 名 称 用 途 非 死 锁 “| 死 锁 
ac 号 





ySQL 本 


我 们 现在 来 深入 分 析 这 两 种 类 型 的 缺陷 。 对 于 第 一 类 非 死 锁 的 缺陷 ， 
我 们 通过 该 研究 的 例子 来 讨论 。 对 于 第 二 类 死 锁 缺陷 ， 我 们 讨论 人 们 
在 阻止 、 避 免 和 处 理 死 锁 上 完成 的 大 量 工 作 。 

















下 


32.2 非 死 锁 缺 陷 


Lu 的 研究 表明 ， 非 死 锁 问题 占 了 并 发 问题 的 大 多 数 。 它 们 是 怎么 发 生 
的 ? 我 们 如 何 修复 ? 我们 现在 主要 讨论 其 中 两 种 : 违反 原子 性 
(atomicity violation) 缺 隐 和 错误 顺序 (order violation) 缺 
从。 


违反 原子 性 缺陷 


第 一 种 类 型 的 问题 叫 作 违反 原子 性 。 这 是 一 个 MySQL 中 出 现 的 例子 。 读 
者 可 以 先 目 行 找 出 其 中 问题 所 在 。 


Thread 1:: 
if (thd->proc info) { 


fputs (thds>pror infoy ms%)? 


} 


‘OIOUNPOVDP 


Thread 2:: 
thd->proc info = NULL; 


这 个 例子 中 ， 两 个 线程 都 要 访问 thd 结 构 中 的 成 员 proc_info。 第 一 个 
线程 检查 proc_info 非 空 ， 然 后 打印 出 值 ， 第 二 个 线程 设置 其 为 空 。 显 
然 ， 当 第 一 个 线程 检查 之 后 ， 在 fputs () 调用 之 前 被 中 断 ， 第 二 个 线程 
把 指针 置 为 空 ， 当 第 一 个 线程 恢复 执行 时 ， 由 于 引用 空 指针 ， 导 致 程 


序 奔 溃 。 


根据 Lu 等 人 ， 更 正式 的 违反 原子 性 的 定义 是 : “违反 了 多 次 内 存 访 问 
中 预期 的 可 串 行 性 《〈 即 代码 段 本 意 是 原子 的 ， 但 在 执行 中 并 没有 强制 
实现 原子 性 ) ”。 在 我 们 的 例子 中 ，proc_info 的 非 空 检 查 和 fputs () 
ee 


这 种 问题 的 修复 通常 (但 不 总 是 ) 很 简单 。 你 能 想到 如 何 修复 吗 ? 
在 这 个 方案 中 ， 我 们 只 要 给 共享 变量 的 访问 加 锁 ， 确 保 每 个 线程 访问 


proc info 字 段 时 ， 都 持 有 锁 (proc info lock) 。 当 然 ,， 访问 这 个 结 
构 的 所 有 其 他 代码 ， 也 应 该 先 获取 锁 。 


pthread mutex t proc _ info lock = PTHREAD MUTEX INITIALIZER; 






































Thread: Le: 
pthread mutex lock(&proc info lock); 
if (thd->proc info) { 


fpute(thd=>pro6 Lnfoy as) 


www 


0 pthread mutex unlock(&proc info lock); 


12 Thread 2:: 

3 pthread mutex lock(&proc info lock); 
14 thd->proc info = NULL; 

二 pthread mutex unlock(&proc info lock); 


违反 顺序 缺陷 


Lu 等 人 提出 的 另 一 种 常见 的 非 死 锁 问题 叫 作 违反 顺序 (order 
violation) 。 下 面 是 一 个 简单 的 例子 。 同 样 ， 看 看 你 是 否 能 找 出 为 什 
么 下 面 的 代码 有 缺陷 。 





下 Thread 1:: 

2 void init() { 

3 Ep 

4 mThread = PR CreateThread (mMain, ...); 
5 i 

6 } 

7 

8 Thread 2:: 

9 void mMain(...) { 

10 ee 

LL mState = mThread->State; 
12 > 

上 3 } 





你 可 能 已 经 发 现 ， 线 程 2 的 代码 中 似乎 假定 变量 mThread 已 经 被 初始 化 
了 《不 为 空 ) 。 然 而 ， 如 果 线 程 1 并 没有 首先 执行 ， 线 程 2 就 可 能 因为 
引用 空 指针 奔 溃 《假设 nmThread 初 始 值 为 空 ， 否 则 ， 可 能 会 产生 更 加 奇 
怪 的 问题 ， 因 为 线程 2 中 会 读 到 任意 的 内 存 位 置 并 引用 ) 。 


违反 顺序 更 正式 的 定义 是 : “两 个 内 存 访问 的 预期 顺序 被 打破 了 《 即 A 
应 该 在 B 之 前 执行 ， 但 是 实际 运行 中 却 不 是 这 个 顺序 ) ”[L+08] 。 


我 们 通过 强制 顺序 来 修复 这 种 缺陷 。 正 如 之 前 详细 讨论 的 ， 条 件 变 量 
(condition variables) 就 是 一 种 简单 可 靠 的 方式 ， 在 现代 代码 集中 
加 入 这 种 同步 。 在 上 面 的 例子 中 ， 我 们 可 以 把 代码 修改 成 这 样 : 














pthread mutex t mtLock = PTHREAD MUTEX INITIALIZER; 
pthread cond t mtCond = PTHREAD COND INITIALIZER; 
工 这 七， 项 臣 工 也 了 七 = 0; 




















pODP 


Thread 1:: 








6 void init() { 

7 ns 

8 mThread = PR CreateThread (mMain, ...); 

9 

10 // signal that the thread has been created... 
二 二 pthread mutex lock(&mtLock); 

二 2 mtInit = 1; 

3 pthread cond signal (gmtCond); 

14 pthread mutex unlock(&mtLock); 

15 

下 } 

于 了 

18 Thread 2:;; 

19 void mMain(...) { 

20 i 

21 // wait for the thread to be initialized... 
22 pthread mutex lock(&mtLock); 

23 while (mtInit == 0) 

24 pthread cond wait (&mtCond, &mtLock); 
25 pthread mutex unlock(&mtLock); 

26 

27 mState = mThread->State; 

28 i 

29 } 


在 这 段 修 复 的 代码 中 ， 我 们 增加 了 一 个 锁 (mtLock〉、 一 个 条 件 变 量 
(mtCond) 以 及 状态 的 变量 (mntInit) 。 初 始 化 代码 运行 时 ， 会 将 
mtInit 设 置 为 1， 并 发 出 信号 表明 它 已 做 了 这 件 事 。 如 果 线 程 2 先 运 
行 ， 就 会 一 直 等 待 信号 和 对 应 的 状态 变化 ;如 果 后 运行 ， 线 程 2 会 检查 
是 否 初始 化 〈“ 即 mt Init 被 设置 为 1) ， 然 后 正常 运行 。 请 注意 ， 我 们 可 
以 用 mThread 本 喘 作为 状态 变量 ， 但 为 了 简洁 ， 我 们 没有 这 样 做 。 当 线 
程 之 间 的 顺序 很 重要 时 ， 条 件 变 量 《〈 或 信号 量 ) 能 够 解决 问题 。 




















非 死 锁 缺 陷 : 小 结 


Lu 等 人 的 研究 中 ， 大 部 分 (97%) 的 非 死 锁 问 题 是 违反 原子 性 和 违反 顺 
序 这 两 种 。 因 此 ， 程 序 员 仔细 研究 这 些 错误 模式 ， 应 该 能 够 更 好 地 避 
免 它 们 。 此 外 ， 随 着 更 自动 化 的 代码 检查 工具 的 发 展 ， 它 们 也 应 该 关 
注 这 两 种 错误 ， 因 为 开发 中 发 现 的 非 死 锁 问 题 大 部 分 都 是 这 两 种 。 


然而 ， 并 不 是 所 有 的 缺陷 都 像 我 们 举 的 例子 一 样 ， 这 么 容易 修复 。 有 
些 问题 需要 对 应 用 程序 的 更 深 的 了 解 ， 以 及 大 量 代 码 及 数据 结构 的 调 
整 。 阅 读 Lu 等 人 的 优秀 〈 可 读 性 强 ) 的 论文 ， 了 解 更 多 细节 。 











32.3 和 死 锁 缺 陷 


除了 上 面 提 到 的 并 发 缺陷 ， 死 锁 〈deadlock) 是 一 种 在 许多 复杂 并 发 
系统 中 出 现 的 经 典 问 题 。 例 如 ， 当 线程 1 持 有 锁 L1， 正 在 等 待 另 外 一 个 
锁 L2， 而 线程 2 持 有 锁 L2， 却 在 等 符 锁 LI 释放 时 ， 死 锁 束 产生 了 。 以 下 
的 代码 片段 就 可 能 出 现 这 种 死 锁 : 


Thread 1: Thread 2: 
掉 富 忆 近 (二 OCGk (LL2): 
Look (LL2): IoGke(GbLyy 








这 段 代码 运行 时 ， 不 是 一 定 会 出 现 死 锁 的 。 当 线程 1 占有 锁 L1， 上 下 文 
切换 到 线程 2。 线 程 2 锁 住 L2， 试 图 锁 住 L1。 这 时 才 产 生 了 有 死 锁 ， 两 个 
线程 互相 等 待 。 如 图 32. 1 所 示 ， 其 中 的 圈 (cycle) 表明 了 死 锁 。 





想 要 的 
间 谣 鲜 
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持 有 

















图 32. 1 死 锁 依赖 图 














该 图 应 该 有 助 于 描述 清楚 问题 。 程 序 员 在 编写 代码 中 应 该 如 何 处 理 死 
锁 呢 ? 


关键 问题 : 如 何 对 付 死 锁 


我 们 在 实现 系统 时 ， 如 何 避 免 或 者 能 够 检测 、 恢 复 死 锁 呢 ? 
这 是 目前 系统 中 的 真实 问题 吗 ? 


为 什么 发 生死 锁 





你 可 能 在 想 ， 上 文 提 到 的 这 个 死 锁 的 例子 ， 很 容易 就 可 以 避免 。 例 
如 ， 只 要 线程 1 和 线程 2 都 用 相同 的 抢 锁 顺 序 ， 死 锁 就 不 会 发 生 。 那 
人 么 ; 死 锁 为 什么 还 会 发 生 ? 


其 中 一 个 原因 是 在 大 型 的 代码 库 里 ， 组 件 之 间 会 有 复杂 的 依赖 。 以 操 
作 系 统 为 例 。 虚 拟 内 存 系统 在 需要 访问 文件 系统 才能 从 磁盘 读 到 内 存 
页 ; 文件 系统 随后 义 要 和 虚拟 内 存 交 互 ， 去 申请 一 页 内 存 ， 以 便 存 放 
读 到 的 块 。 因 此 ， 在 设计 大 型 系统 的 锁 机 制 时 ， 你 必须 要 仔细 地 去 避 
免 循环 依赖 导致 的 死 锁 。 


男 一 个 原因 是 封装 (encapsulation) 。 软 件 开发 者 一 直 倾 向 于 隐藏 实 
现 细节 ， 以 模块 化 的 方式 让 软件 开发 更 容易 。 然 而 ， 模 块 化 和 锁 不 是 
很 契合 。Jula 等 人 指出 [+08] ， 某 些 看 起 来 没有 关系 的 接口 可 能 会 导 
致死 锁 。 以 Java 的 Vector 类 和 AddA11 (0) 方 法 为 例 ， 我 们 这 样 调 用 这 个 
方法 : 











Veetor TL V2 
V1 .AddAll (v2); 





在 内 部 ， 这 个 方法 需要 多 线程 安全 ， 因 此 针对 被 添加 向 量 (v1) 和 参 
数 (v2) 的 锁 都 需要 获取 。 假 设 这 个 方法 ， 先 给 v1 加 锁 ， 然 后 再 给 v2 
加 锁 。 如 果 另 外 某 个 线程 几乎 同时 在 调用 v2. AddAll (v1)， 束 可 能 过 到 
死 锁 。 


产生 死 锁 的 条 件 


和 死 锁 的 产生 需要 如 下 4 个 条 件 [C+71] 。 


。 线程 对 于 需要 的 资源 进行 互 斥 的 访问 《例如 一 个 线程 抢 到 
名 


。 持 有 并 等 待 : 线程 持 有 了 资源 《例如 已 将 持 有 的 锁 ) ， 同 时 又 在 
等 待 其 他 资源 〈 例 如 ， 需 要 获得 的 锁 ) 。 

非 抢占 : 线程 获得 的 资源 (例如 锁 ) ， 不 能 被 抢占 。 

循环 等 待 : 线程 之 间 存 在 一 个 环 路 ， 环 路 上 每 个 线程 都 额外 持 有 
一 个 资源 ， 而 这 个 资源 又 是 下 一 个 线程 要 申请 的 。 

如 果 这 4 个 条 件 的 任何 一 个 没有 满足 ， 死 锁 就 不 会 产生 。 因 此 ， 我 们 首 
先 研究 一 下 预防 死 锁 的 方法 ， 每 个 策略 都 设法 阻止 菜 一 个 条 件 ， 从 而 
解决 死 锁 的 问题 。 





预防 


循环 等 待 


也 许 最 实用 的 预防 技术 (当然 也 是 经 常 采用 的 ) ， 就 是 让 代码 不 会 产 
生 循 环 等 待 。 最 直接 的 方法 就 是 获取 锁 时 提供 一 个 全 序 (total 
ordering) 。 假 如 系统 共有 两 个 锁 〈L1 和 L2) ， 那 么 我 们 每 次 都 先 申 
请 L1 然 后 申请 L2， 就 可 以 避免 死 锁 。 这 样 严 格 的 顺序 避免 了 循环 等 
待 ， 也 就 不 会 产生 死 锁 。 


当然 ， 更 复杂 的 系统 中 不 会 只 有 两 个 锁 ， 锁 的 全 序 可 能 很 难 做 到 。 因 
此 ， 偏 序 (partial ordering) 可 能 是 一 种 有 用 的 方法 ， 安 排 锁 的 获 
取 并 避免 死 锁 。Linux 中 的 内 存 映 射 代码 就 是 一 个 偏 序 锁 的 好 例子 
[T+94] 。 人 代码 开头 的 注释 表明 了 10 组 不 同 的 加 锁 顺 序 ， 包 括 简 单 的 关 
系 ， 比 如 i mutex 早 于 i mmap mutex， 也 包括 复杂 的 关系 ， 比 如 
i mmap mutex 早 于 private lock， 早 于 swap lock ， 早 于 mapping- 
>tree lock。 


你 可 以 想到 ， 全 序 和 偏 序 都 需要 细致 的 锁 集 略 的 设计 和 实现 。 男 外 ， 
顺序 只 是 一 种 约定 ， 粗 心 的 程序 员 很 容易 忽略 ， 导 致死 锁 。 最 后 ， 有 
序 加 锁 需 要 深入 理解 代码 库 ， 了 解 各 种 函数 的 调用 关系 ， 即 使 一 个 错 
误 ， 也 会 导致 “D” 字 4 








提示 : 通过 锁 的 地 址 来 强制 锁 的 顺序 


当 一 个 函数 要 抢 多 个 锁 时 ， 我 们 需要 注意 死 锁 。 比 如 有 一 个 
函数 : do_something (nutex t *ml，mutex t x*m2) ， 如 果 函 
数 总 是 先 抢 ml， 然 后 m2 ， 那 么 当 一 个 线程 调用 
do something(L1， L2) ， 而 另 一 个 线程 调用 
do_something(L2，L1) 时 ， 就 可 能 会 产生 死 锁 。 


为 了 避免 这 种 特殊 问题 ， 聪 明 的 程序 员 根 据 锁 的 地 址 作为 获 
取 锁 的 顺序 。 按 照 地 址 从 高 到 低 ， 或 者 从 低 到 高 的 顺序 加 
锁 ，do_something () 函数 就 可 以 保证 不 论 传 入 参数 是 什么 顺 
序 ， 函 数 都 会 用 固定 的 顺序 加 锁 。 有 具体 的 代码 如 下 : 


if (ml > m2) { // grab locks in high-to-low address order 
pthread mutex lock (ml); 

pthread mutex lock 
else { 

pthread mutex loc 
pthread mutex loc 


wy 


} 


// Code assumes that ml != m2 (it is not the same lock) 





在 获取 多 个 锁 时 ， 通 过 简单 的 技巧 ， 就 可 以 确保 简单 有 效 的 
无 死 锁 实现 。 


持 有 并 等 待 


和 死 锁 的 持 有 并 等 竺 条件 ， 可 以 通过 原子 地 抢 锁 来 避免 。 实 践 中 ， 可 以 
通过 如 下 代码 来 实现 : 


BO DP 











lock (prevention); 
Jock(LL); 
lock (L2) ， 





unlock (prevention); 


先 抢 到 prevention 这 个 锁 之 后 ， 代 码 保 证 了 在 抢 锁 的 过 程 中 ， 不 会 有 
不 合 时 宣 的 线程 切换 ， 从 而 避免 了 死 锁 。 当 然 ， 这 需要 任何 线程 在 任 





何 时 候 抢占 锁 时 ， 先 抢 到 全 局 的 prevention 锁 。 例 如 ， 如 果 另 一 个 线 


程 用 不 同 的 顺序 抢 锁 L1 和 L2， 也 不 会 有 问题 ， 因 为 此 时 ， 线 程 已 经 抢 
到 了 prevention 锁 。 


注意 ， 出 于 某 些 原因 ， 这 个 方案 也 有 问题 。 和 之 前 一 样 ， 它 不 适用 于 
封装 : 因为 这 个 方案 需要 我 们 准确 地 知道 要 抢 哪些 锁 ， 并 且 提 前 抢 到 
这 些 锁 。 因 为 要 提前 抢 到 所 有 锁 〈 同 时 ) ， 而 不 是 在 真正 需要 的 时 
候 ， 所 以 可 能 降低 了 并 友 。 


非 抢占 

在 调用 unlock 之 前 ， 都 认为 锁 是 被 占有 的 ， 多 个 抢 锁 操 作 通 常会 融 来 
诬 烦 ， 因 为 我 们 等 待 一 个 锁 时 ， 同 时 持 有 男 一 个 锁 。 很 多 线程 库 提供 
更 为 灵活 的 接口 来 避免 这 种 情况 。 具 体 来 说 ，trylock 0 函数 会 尝试 获 
得 锁 ， 或 者 返回 -1， 表 示 锁 已 经 被 占有 。 你 可 以 稍 后 重 试 一 下 。 


可 以 用 这 一 接口 来 实现 无 死 锁 的 加 锁 方 法 : 





1 七: 

分 OGKk(LLY 

3 if (trylock(L2) == -1) { 
4 unlock (L1); 

5 goto top; 

6 } 


注意 ， 忆 一 个 线程 可 以 使 用 相同 的 加 锁 方 式 ， 但 是 不 同 的 加 锁 顺 序 
(L2 然 后 L1) ， 程 序 仍 然 不 会 产生 死 锁 。 但 是 会 引 来 一 个 新 的 问题 : 
活 锁 〈1livelock) 。 两 个 线程 有 可 能 一 直 重 复 这 一 序列 ， 又 同时 都 抢 
锁 失 败 。 这 种 情况 下 ， 系 统一 直 在 运行 这 段 代 码 《〈 因 此 不 是 死 锁 ) ， 
但 是 又 不 会 有 进展 ， 因 此 名 为 活 锁 。 也 有 活 锁 的 解决 方法 : 例如 ， 可 
以 在 循环 结束 的 时 候 ， 先 随机 等 待 一 个 时 间 ， 然 后 再 重复 整个 动作 ， 
这 样 可 以 降低 线程 之 间 的 重复 互相 干扰 。 


关于 这 个 方案 的 最 后 一 点 : 使 用 trylock 方 法 可 能 会 有 一 些 困 难 。 第 一 
个 问题 仍然 是 封装 : 如 果 其 中 的 某 一 个 锁 ， 是 封装 在 函数 内 部 的 ， 那 
么 这 个 跳 回 开始 处 就 很 难 实现 。 如 果 代 码 在 中 途 获 取 了 某 些 资源 ， 必 
须要 确保 也 能 释放 这 些 资 源 。 例 如 ， 在 抢 到 LI 后 ， 我 们 的 代码 分 配 了 
一 些 内 存 ， 当 抢 L2 失 败 时 ， 并 且 在 返回 开头 之 前 ， 需 要 释放 这 些 内 
存 。 当 然 ， 在 某 些 场景 下 《〈 例 如， 之 前 提 到 的 Java 的 vector 方 法 ) ， 
这 种 方法 很 有 效 。 








互 斥 


最 后 的 预防 方法 是 完全 避免 互 斥 。 通 常 来 说 ， 代 码 都 会 存在 临界 区 ， 
因此 很 难 避 免 互 斥 。 那 么 我 们 应 该 怎么 做 呢 ? 


Herlihy 提 出 了 设计 各 种 无 等 待 (wait-free) 数据 结构 的 思想 [H91] 。 
和 
结 人 | o 


举 个 简单 的 例子 ， 假 设 我 们 有 比较 并 交换 (compare-and-swap ) 指 
令 ， 是 一 种 由 硬件 提供 的 原子 指令 ， 做 下 面 的 事 : 


int CompareAndSwap (int *address, int expected, int new) { 
if (*address == expected) { 











*address = new; 
return 1; // success 
} 
return 0; // failure 


} 


OOPRODP 





假定 我 们 想 原 子 地 给 某 个 值 增加 特定 的 数量 。 我 们 可 以 这 样 实现 : 


1 void AtomicIncrement (int *value, int amount) { 

交 do { 

3 int old = *value; 

4 } while (CompareAndSwap (value, old, old + amount) == 0); 
5 } 


无 须 获 取 锁 ， 更 新 值 ， 然 后 释放 锁 这 些 操作 ， 我 们 使 用 比较 并 交换 指 
令 ， 反 复 党 试 将 值 更 新 到 新 的 值 。 这 种 方式 没有 使 用 锁 ， 因 此 不 会 有 
和 死 锁 《有 可 能 产生 活 锁 ) 。 


Re 链表 插入 。 这 是 在 链表 头 部 插入 元 际 
9 代码: 


J void insert (int value) { 

2 node t xn = malloc(sizeof (node t+)); 
3 assert(n != NULL); 

4 n->value = value; 

5 n->next = head; 

6 head = n; 

7 


这 段 代码 在 多 线程 同时 调用 的 时 候 ， 会 有 临界 区 《看 看 你 是 否 能 弄 清 
楚 原 因 ) 。 当 然 ， 我 们 可 以 通过 给 相关 代码 加 锁 ， 来 解决 这 个 问题 : 


王 void insert (int value) { 

2 node t xn = malloc(sizeof (node t+)); 

3 assert(n != NULL); 

4 n->value = value; 

5 lock (listlock); // begin critical section 
6 n->next = head; 

7 head = n; 

8 unlock (listlock); // end of critical section 
9 


上 面 的 方案 中 ， 我 们 使 用 了 传统 的 锁 t 站 。 这 里 我 们 尝试 用 比较 并 交换 
指令 (compare-and-swap) 来 实现 插入 操作 。 一 种 可 能 的 实现 是 : 


void insert (int value) { 

node t xn = malloc(sizeof (node 七 ) ) ; 

assert(n != NULL); 

n->value = value; 

do { 

n->next = headg; 

} while (CompareAndSwap (&head, n->next, n) == 0) ; 

} 


co ~ 民情 


这 段 代 码 ， 首 先 把 next 指 针 指 向 当前 的 链表 头 〈head) ， 然 后 试 着 把 
新 节点 交换 到 链表 头 。 但 是 ， 如 果 此 时 其 他 的 线程 成 功 地 修改 了 head 
的 值 ， 这 里 的 交换 就 会 失败 ， 导 致 这 个 线程 根据 新 的 head 值 重 试 。 


当然 ， 只 有 插入 操作 是 不 够 的 ， 要 实现 一 个 完善 的 链表 还 需要 删除 、 
查找 等 其 他 工作 。 如 果 你 有 兴趣 ， 可 以 去 查阅 关于 无 等 待 同步 的 丰富 
文献 。 


通过 调度 避免 死 锁 


除了 死 锁 预防 ， 某 些 场景 更 适合 死 锁 避免 〈avoidance) 。 我 们 需要 了 
解 全 局 的 信息 ， 包 括 不 同 线程 在 运行 中 对 锁 的 需求 情况 ， 从 而 使 得 后 
续 的 调度 能 够 避免 产生 死 锁 。 





例如 ， 假 设 我 们 需要 在 两 个 处 理 器 上 调度 4 个 线程 。 更 进一步 ， 假 设 我 
们 知道 线程 1 CT1) 需要 用 锁 L1 和 L2， T25 也 需要 抢 LL 和 L2 只 需要 
L2，T4 不 需要 锁 。 我 们 用 表 32. 2 来 表示 线程 对 锁 的 需求 。 


表 32. 2 线程 对 锁 的 需求 
十 








一 种 比较 聪明 的 调度 方式 是 ， 只 要 T1 和 T2 不 同时 运行 ， 就 不 会 产生 死 
锁 。 下 面 束 是 这 种 方式 : 


CPU ] 工 3 T4 








CPU 2 2 


请 注意 ，T3 和 Tl 重 县 ， 或 者 和 T2 重 闭 都 是 可 以 的 。 虽 然 T3 会 抢占 锁 
[os Re A ee Re Pe 
锁 。 


我 们 再 来 看 另 一 个 竞争 更 多 的 例子 。 在 这 个 例子 中 ， 对 同样 的 资源 
(又 是 锁 L1 和 L2) 有 更 多 的 竞争 。 锁 和 线程 的 竞争 如 表 32. 3 所 示 。 


表 32. 3 ” 锁 和 线程 的 竞争 


加 网 同 网 风 
1 








Ll1 lyes lyes lyes |Ino 


特别 是 ， 线 程 T1、T2 和 T3 执 行 过 程 中 ， 都 需要 持 有 锁 L1 和 L2。 下 面 是 
一 种 不 会 产生 死 锁 的 可 行 方案 : 








CPU1 上 于 


你 可 以 看 到 ，T1、T2 和 T3 运 行 在 同一 个 处 理 器 上 ， 这 种 保守 的 静态 方 
案 会 明显 增加 完成 任务 的 总 时 间 。 尽 管 有 可 能 并 发 运行 这 些 任 务 ， 但 
为 了 避免 死 锁 ， 我 们 没有 这 样 做 ， 付 出 了 性 能 的 代价 。 


Dijkstra 提 出 的 银行 家 算法 [D64] 是 一 种 类 似 的 著名 解决 方案 ， 文 献 中 
也 描述 了 其 他 类 似 的 方案 。 遗 憾 的 是 ， 这 些 方 案 的 适用 场景 很 局 限 。 
例如 ， 在 仍 入 式 系统 中 ， 你 知道 所 有 任务 以 及 它们 需要 的 锁 。 夯 外 ， 
和 上 文 的 第 二 个 例子 一 样 ， 这 种 方法 会 限制 并 发 。 因 此 ， 通 过 调度 来 
避免 死 锁 不 是 广泛 使 用 的 通用 方案 。 


检查 和 恢复 


最 后 一 种 常用 的 策略 就 是 允许 死 锁 侦 尔 发 生 ， 检 查 到 死 锁 时 再 采取 行 
动 。 举 个 例子 ， 如 果 一 个 操作 系统 一 年 死机 一 次 ， 你 会 重启 系统 ， 然 
后 愉快 地 《或 者 生气 地 ) 继续 工作 。 如 果 死 锁 很 少见 ， 这 种 不 是 办 法 
的 办 法 也 是 很 实用 的 。 


提示 : 不 要 总 是 完美 “TOM 了 EST 和 定律 ) 


Tom West 是 经 典 的 计算 机 行业 小 说 《Soul of a New 
Machine》[K81 的 主人 公 ， 有 一 句 很 棒 的 工程 格言 : “不 是 
所 有 值得 做 的 事情 都 值得 做 好 ”。 如 果 坏 事 很 少 发 生 ， 并 且 
造成 的 影响 很 小 ， 那 么 我 们 不 应 该 去 花费 大 量 的 精力 去 预防 
它 。 当 然 ， 如 果 你 在 制造 航天 飞机 ， 事 故 会 导致 航天 飞机 爆 
炸 ， 那 么 你 应 该 忽略 这 个 建议 。 


很 多 数据 库 系 统 使 用 了 死 锁 检 测 和 恢复 技术 。 死 锁 检测 器 会 定期 运 
行 ， 通 过 构建 资源 图 来 检查 循环 。 当 循环 〈 死 锁 ) 发 生 时 ， 系 统 需要 
ee 


读者 可 以 在 其 他 地 方 找到 更 多 的 关于 数据 库 并 发 、 死 锁 和 相关 问题 的 
资料 [B+87，K87] 。 阅 读 这 些 著作 ， 妆 然 最 好 可 以 通过 学 习 数 据 库 的 课 
程 ， 深 入 地 了 解 这 一 有 趣 而 且 丰 宇 的 主题 。 


32.4 小 结 


在 本 半 中 ， 我 们 学 习 了 并 发 编程 中 出 现 的 缺陷 的 类 型 。 第 一 种 是 非常 
常见 的 ， 非 死 锁 缺陷 ， 通 常 也 很 容易 修复 。 这 种 问题 包括 : 违法 原子 
性 ， 即 应 该 一 起 执行 的 指令 序列 没有 一 起 执行 ， 违 反 顺序 ， 即 两 个 线 
程 所 需 的 顺序 没有 强制 保证 。 


同时 ， 我 们 简要 地 讨论 了 死 锁 : 为 何 会 发 生 ， 以 及 如 何 处 理 。 这 个 问 
题 几 乎 和 并 发 一 样 古 老 ， 已 经 有 成 百 上 于 的 相关 论文 了 。 实 践 中 是 自 
行 设 计 抢 锁 的 顺序 ， 从 而 避免 死 锁 发 生 。 无 等 待 的 方案 也 很 有 希望 ， 
在 一 些 通用 库 和 系统 中 ， 包 括 Linux， 都 已 经 有 了 一 些 无 等 待 的 实现 。 
然而 ， 这 种 方案 不 够 通用 ， 并 且 设 计 一 个 新 的 无 等 待 的 数据 结构 极其 
复杂 ， 以 至 于 不 够 实用 。 也 许 ， 最 好 的 解决 方案 是 开发 一 种 新 的 并 发 
编程 模型 在 类 似 MapReduce (来 自 Google) [GD02] 这 样 的 系统 中 ， 程 














序 员 可 以 完成 一 些 类 型 的 并 行 计算 ， 无 须 任 何 锁 。 锁 必然 带 来 各 种 困 
难 ， 也 许 我 们 应 该 尽 可 能 地 避免 使 用 锁 ， 除 非 确信 必须 使 用 。 
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[1] “D” 表 示 “Deadlock”。 


12]， 聪 明 的 读者 可 能 会 问 ， 为 什么 我 们 这 么 晚 才 抢 锁 ， 而 不 是 就 在 进 
入 insert () 时 。 聪 明 的 读者 ， 你 可 以 弄 清楚 为 什么 这 可 能 是 正确 的 ? 


第 33 章 ”基于 事件 的 并 发 〈 进 阶 ) 


目前 为 止 ， 我 们 提 到 的 并 发 ， 似 乎 只 能 用 线程 来 实现 。 就 像 生 活 中 的 
许多 事 ， 这 不 完全 对 。 有 具体 来 说 ， 一 些 基 于 图 形 用 户 界 面 (GUI) 的 应 
用 [096]， 或 菜 些 类 型 的 网 络 服 务 器 LPDZ99] ， 常 常 采 用 男 一 种 并 发 方 
式 。 这 种 方式 称 为 基于 事件 的 并 发 (event-based concurrency) ， 在 
一 些 现代 系统 中 较为 流行 ， 比 如 node. js[N13] ， 但 它 源 自 于 CVZUNIX 系 
统 ， 我 们 下 面 将 讨论 。 


基于 事件 的 并 发 针对 两 方面 的 问题 。 一 方面 是 多 线程 应 用 中 ， 正 确 处 
理 并 发 很 有 难度 。 正 如 我 们 讨论 的 ， 忘 加 锁 、 死 锁 和 其 他 烦人 的 问题 
会 发 生 。 另 一 方面 ， 开 发 者 无 法 控制 多 线程 在 茶 一 时 刻 的 调度 。 程 序 
员 只 是 创建 了 线程 ， 然 后 就 依赖 操作 系统 能 够 合理 地 调度 线程 。 要 实 
现 一 个 在 各 种 不 同 负载 下 ， 都 能 够 良好 运行 的 通用 调度 程序 ， 是 极 有 
难度 的 。 因 此 ， 某 些 时 候 操 作 系 统 的 调度 并 不 是 最 优 的 。 关 键 问 题 如 
下 




















关键 问题 : 不 用 线程 ， 如 何 构建 并 发 服务 器 


不 用 线程 ， 同 时 保证 对 并 发 的 控制 ， 避 免 多 线程 应 用 中 出 现 
的 问题 ， 我 们 应 该 如 何 构建 一 个 并 发 服务 器 ? 


33.1 基本 想法 : 事件 循环 





我 们 使 用 的 基本 方法 就 是 基于 事件 的 并 发 〈event-based 
concurrency) 。 该 方法 很 简单 : 我 们 等 待 某 事 〈 即 “事件 ”) 发 生 ; 
当 它 发 生 时 ， 检 查 事件 类 型 ， 然 后 做 少量 的 相应 工作 (可 能 是 1/0 请 
求 ， 或 者 调度 其 他 事件 准备 后 续 人 处理) 。 这 就 好 了 ! 


在 深入 细节 之 前 ， 我 们 先 看 一 个 典型 的 基于 事件 的 服务 器 。 这 种 应 用 
都 是 基于 一 个 简单 的 结构 ， 称 为 事件 循环 (event loop) 。 事 件 循 环 
的 伪 代 人 码 如 下 : 


while (1) { 
vents = getEvents (); 
for (e in events) 
processEvent (e); 














它 确实 如 此 简单 。 主 循环 等 待 某 些 事件 发 生 《〈 通 过 getEvents () 调 
用 ) ， 然 后 依次 处 理 这 些 发 生 的 事件 。 处 理事 件 的 代码 叫 作 事件 处 理 
程序 (event handler) 。 重 要 的 是 ， 处 理 程 序 在 处 理 一 个 事件 时 ， 它 
是 系统 中 发 生 的 唯一 活动 。 因 此 ， 调 度 就 是 决定 接 下 来 处 理 哪个 事 
件 。 这 种 对 调度 的 显 式 控制 ， 是 基于 事件 方法 的 一 个 重要 优点 。 


但 这 也 带 来 一 个 更 大 的 问题 ， 基 于 事件 的 服务 器 如 何 决定 哪个 事件 发 
生 ， 尤 其 是 对 于 网 络 和 磁盘 I/0? 具体 来 说 ， 事 件 服务 器 如 何 确 定 是 否 
有 它 的 消息 已 经 到 达 ? 





33.2 重要 API: select() (或 po110) 


知道 了 基本 的 事件 循环 ， 我 们 接 下 来 必须 解决 如 何 接收 事件 的 问题 。 
大 多 数 系 统 提 供 了 基本 的 API， 即 通过 select () 或 pol10 系统 调用 。 


这 些 接口 对 程序 的 支持 很 简单 : 检查 是 否 有 任何 应 该 关注 的 进入 1/0。 
例如 ， 假 定 网 络 应 用 程序 〈 如 Web 服 务 器 ) 希望 检查 是 否 有 网 络 数 据 包 
已 到 达 ， 以 便 为 它们 提供 服务 。 这 些 系 统 调 用 就 让 你 做 到 这 一 点 。 


下 面 以 select 0 为 例 ， 手 册页 (在 mac0S X 上 ) 以 这 种 方式 描述 API: 


int select (int nfds, 
fd set *restrict readfds, 
fd set *restrict writefds, 
fd set *restrict errorfds;y 
struct timeval *restrict timeout); 























手册 页 中 的 实际 描述 :select 0 检查 I/0 描 述 符 集合 ， 它 们 的 地 址 通过 
readfds、writefds 和 errorfds 传 入 ， 分 别 查 看 它们 中 的 某 些 描述 符 是 
否 已 准备 好 读 取 ， 是 否 准备 好 写 入 ， 或 有 异常 情况 待 处理 。 在 每 个 集 
合 中 检查 前 nfds 个 描述 符 ， 即 检查 摘 述 符 集 合 中 从 0 到 nfds-1 的 描述 
符 。 返 回 时 ，select(O 用 给 定 请 求 操作 准备 好 的 描述 符 组 成 的 子 集 蔡 
换 给 定 的 描述 符 集 合 。select 0 返回 所 有 集合 中 就 绪 摘 述 符 的 总 数 。 


补充 : 阻塞 与 非 阻塞 接口 


阻塞 〈 或 同步 ，synchronous) 接口 在 返回 给 调用 者 之 前 完成 
所 有 工作 。 非 阻塞 〈 或 异步 ，asynchronous) 接口 开始 一 些 
工作 ， 但 立即 返回 ， 从 而 让 所 有 需要 完成 的 工作 都 在 后 台 完 
成 。 


通常 阻塞 调用 的 主犯 是 某 种 I/0。 例 如 ， 如 果 一 个 调用 必须 从 
磁盘 读 取 才能 完成 ， 它 可 能 会 阻 玫 ， 等 竺 发送 到 磁盘 的 I / 0 
请 求 返回 。 

非 阻 塞 接口 可 用 于 任何 类 型 的 编程 《例如 ， 使 用 线程 》， 但 


i 因为 阻 豆 的 调用 会 阻止 所 有 








关于 select 0) 有 几 点 要 注意 。 首 先 ， 请 注意 ， 它 可 以 让 你 检查 描述 符 
是 否 可 以 读 取 和 写 入 。 前 者 让 服务 器 确定 新 数据 包 已 到 达 并 且 需 要 处 
理 ， 而 后 者 则 让 服务 知道 何 时 可 以 回复 〈 即 出 站 队列 未 满 ) 。 


其 次 ， 请 注意 超时 参数 。 这 里 的 一 个 常见 用 法 是 将 超时 设置 为 NULL， 
这 会 导致 select (无 限期 地 阻塞 ， 直 到 某 个 描述 符 准 备 就 绪 。 但 是 ， 
更 健壮 的 服务 器 通常 会 指定 某 种 超时 。 一 种 常见 的 技术 是 将 超时 设置 
为 零 ， 因 此 让 调用 select() 立即 返回 。 


poll10 系统 调用 非常 相似 。 有 关 详 细 人 信息， 请 参阅 其 手册 页 或 Stevens 
和 Rago 的 书 [SR05] 。 








无 论 哪 种 方式 ， 这 些 基本 原 语 为 我 们 提供 了 一 种 构建 非 阻塞 事件 循环 
的 方法 ， 它 可 以 简单 地 检查 传 入 数据 包 ， 从 带 有 消息 的 套 接 字 中 读 取 
数据 ， 并 根据 需要 进行 回复 。 





33.3 使 用 select () 


为 了 让 这 更 具体 ， 我 们 来 看 看 如 何 使 用 select 0 来 查看 哪些 网 络 描述 
符 在 它们 上 面 有 传 入 消息 。 图 33. 1 展示 了 一 个 简单 的 例子 。 




















1 #include <stdio.n> 

2 #include <stdlib.h> 

3 #include <sys/time.h> 

4 #include <sys/types.h> 

3 #include <unistd.h> 

6 

7 int main(void) { 

8 // open and set up a bunch of sockets (not shown) 
9 // main loop 

10 while (1) { 

11 // initialize the fd set to all zero 

12 fd set readFDs; 

13 FD ZERO(&readFDs); 

14 

15 // now set the bits for the descriptors 

16 // this server is interested in 

7 // (for simplicity, all of them from min to max) 
8 int fqd; 

19 for (fd = minFD; fd < maxFD; fd++) 

20 FD SET(fd, &readFDs); 

21 

22 // do the select 

23 int rc = select (maxFD+1, &readFDs, NULL, NULL, NULL); 
24 

25 // check which actually have data using FD ISSET() 
26 了 Ti 注 dls 

27 for (fd = minFD; fd < maxFD; fd++) 

28 if (FD ISSET(fd, &readFDs)) 

29 processFD (fd); 

30 } 

31 } 


图 33. 1 使 用 select 0 的 简单 代码 


这 段 代 码 实 际 上 很 容易 理解 。 初 始 化 完成 后 ， 服 务 器 进入 无 限 循环 。 
在 循环 内 部 ， 它 使 用 FD_ZERO0 0 宏 首先 清除 文件 描述 符 集 合 ， 然 后 使 用 
FD_SET( 将 所 有 从 minFD 到 maxFD 的 文件 描述 符 包 含 到 集合 中 。 例 如 ， 
这 组 描述 符 可 能 表示 服务 器 正在 关注 的 所 有 网 络 套 接 字 。 最 后 ， 服 务 








器 调用 select 0 来 查看 哪些 连接 有 可 用 的 数据 。 然 后 ， 通 过 在 循环 中 
使 用 FD_ISSET()， 事 件 服 务 器 可 以 查看 哪些 描述 符 已 准备 好 数据 并 处 
理 传 入 的 数据 。 


当然 ， 真 正 的 服务 器 会 比 这 更 复杂 ， 并 且 在 发 送 消 息 、 发 出 磁盘 1/0 和 
许多 其 他 细节 时 需要 使 用 逻辑 。 想 了 解 更 多 信息 ， 请 参阅 Stevens 和 
Rago 的 书 [SR05] ， 了 解 API 信 息 ， 或 Pai 等 人 的 论文 、Welsh 等 人 的 论 
0 
J 总 体 了 解 。 





33. 4 为何 更 简单 ? 无 须 锁 





使 用 单个 CPU 和 基于 事件 的 应 用 程序 ， 并 发 程序 中 发 现 的 问题 不 再 存 
在 。 具 体 来 说 ， 因 为 一 次 只 处 理 一 个 事件 ， 所 以 不 需要 获取 或 释放 
锁 。 基 于 事件 的 服务 器 不 能 被 另 一 个 线程 中 断 ， 因 为 它 确实 是 单线 程 
的 。 因 此 ， 线 程 化 程序 中 管见 的 并 发 性 错误 并 没有 出 现在 基本 的 基于 
事件 的 方法 中 。 





提示 : 请 勿 阻塞 基于 事件 的 服务 器 


基于 事件 的 服务 器 可 以 对 任务 调度 进行 细 粒 度 的 控制 。 但 
是 ， 为 了 保持 这 种 控制 ， 不 可 以 有 阻止 调用 者 执行 的 调用 。 
如 果 不 遵 守 这 个 设计 提示 ， 将 导致 基于 事件 的 服务 器 阻塞 ， 
客户 心 塞 ， 并 严重 质疑 你 是 否 读 过 本 书 的 这 部 分 内 容 。 


33.5 一 个 问题 阻塞 系统 调用 


到 目前 为 止 ， 基 于 事件 的 编程 听 起 来 很 棒 ， 对 吧 ? 编写 一 个 简单 的 循 
环 ， 然 后 在 事件 发 生 时 处 理事 件 。 甚 至 不 需要 考虑 锁 ! 但 是 有 一 个 问 


题 : 如 果 茶 个 事件 要 求 你 发 出 可 能 会 阻塞 的 系统 调用 ， 该 怎么 办 ? 


例如 ， 假 定 一 个 请 求 从 客户 端 进 入 服务 器 ， 要 从 磁盘 读 取 文件 并 将 其 
内 容 返回 给 发 出 请 求 的 客户 端 〈 很 像 简单 的 HTTP 请 求 ) 。 为 了 处 理 这 
样 的 请 求 ， 某 些 事件 处 理 程序 最 终 将 不 得 不 发 出 opengO 系统 调用 来 打 
开 文件 ， 然 后 通过 一 系列 read 调用 来 读 取 文 件 。 当 文件 被 读 入 内 存 
时 ， 服 务 器 可 能 会 开始 将 结果 发 送 到 客户 端 。 


open 0) 和 read \ 调用 都 可 能 向 存储 系统 发 出 I/0 请 求 〈 当 所 需 的 元 数据 
或 数据 不 在 内 存 中 时 ) ， 因 此 可 能 需要 很 长 时 间 才 能 提供 服务 。 使 用 
基于 线程 的 服务 费时 ， 这 不 是 问题 ， 在 发 出 I/0 请 求 的 线程 挂 起 等待 
1/0 完 成 ) 时， 其 他 线程 可 以 运行 ， 从 而 使 服务 器 能 够 取得 进展 。 事 实 
上 ，I/0 和 其 他 计算 的 自然 重合 (overlap) 使 得 基于 线程 的 编程 非常 
自然 和 直接 。 


但 是 ， 使 用 基于 事件 的 方法 时 ， 没 有 其 他 线程 可 以 运行 : 只 是 主事 件 
人 循环。 这 意味 着 如 果 一 个 事件 处 理 程序 发 出 一 个 阻 窗 的 调用 ， 整 个 服 
务 器 就 会 这 样 做 : 阻塞 直到 调用 完成 。 当 事件 循环 阻塞 时 ， 系 统 处 于 
内置 状 态 ， 因 此 是 潜在 的 巨大 资源 浪费 。 因 此 ， 我 们 在 基于 事件 的 系 
统 中 必须 遵守 一 条 规则 : 不 允许 阻塞 调用 。 




















33.6 解决 方案 异步 1/0 





为 了 克服 这 个 限制 ， 许 多 现代 操作 系统 已 经 引入 了 新 的 方法 来 同人 磁盘 
系统 发 出 1/0 请 求 ， 一 般 称 为 异步 /0 (asynchronous 1/0) 。 这 些 接 
口 使 应 用 程序 能 够 友 出 1/0 请 求 ， 并 在 1/0 完 成 之 前 立即 将 控制 权 人 返回 
给 调用 者 ， 男 外 的 接口 让 应 用 程序 能 够 确定 各 种 1/0 是 否 已 完成 。 
例如 ， 让 我 们 来 看 看 在 mac0S X 上 提供 的 接口 (其 他 系统 有 类 似 的 
API) 。 这 些 API 围 绕 着 一 个 基本 的 结构 ， 即 struct aiocb 或 AI0 控 制 块 
(CAI0 control block) 。 该 结构 的 简化 版 本 如 下 所 示 《〈 有 关 详 细 信 
上 息 ， 请 参阅 手册 页 ) : 


struct aiccb { 











aio fildes; /* File descriptor */ 
off 七 aio offset; /* File offset */ 
volatile void *aio buf; /* Location of buffer */ 


ST2e- 瑟 aio nbytes; /* Length of transfer */ 





要 向 文件 发 出 异步 读 取 ， 应 用 程序 应 首先 用 相关 信息 填充 此 结构 :要 
读 取 文件 的 文件 描述 符 (aio fildes ) ， 文 件 内 的 偏 移 量 
(ai offset) 以 及 长 度 的 请 求 (aio nbytes) ， 最 后 是 应 该 复制 读 取 
结果 的 目标 内 存 位 置 Caio_buf) 。 


在 填充 此 结构 后 ， 应 用 程序 必须 发 出 异步 调用 来 读 取 文件 。 在 mac0S X 
上 ， 此 API 就 是 异步 读 取 (asynchronous read) API: 











int aio reaq (struct aiocb *aiocbp) 
该 调用 尝试 发 出 I[/0。 如 果 成 功 ， 它 会 立即 返回 并 且 应 用 程序 〈 即 基于 
事件 的 服务 器 ) 可 以 继续 其 工作 。 


然而 ， 我 们 必须 解决 最 后 一 个 难题 。 我 们 如 何 知道 I/0 何 时 完成 ， 并 且 
缓冲 区 《〈 由 aio buf 指 向 ) 现在 有 了 请 求 的 数据 ? 


还 需要 最 后 一 个 API。 在 mac0S X 上 ， 它 被 称 为 aio error() (有 点 令 人 
困惑 ) 。API 看 起 来 像 这 样 : 


int aio error(const struct aiocb *aiocbp); 








该 系统 调用 检查 aiocbp 引 用 的 请 求 是 否 已 完成 。 如 果 有 ， 则 函数 返回 
成 功 ( 用 零 表 示 ) 。 如 果 不 是 ， 则 返回 EINPROGRESS。 因 此 ， 对 于 每 个 
未 完成 的 异步 I/0， 应 用 程序 可 以 通过 调用 aio_error () 来 周期 性 地 轮 
询 〈pol1) 系统 ， 以 确定 所 述 I/0 是 否 尚 未 完成 。 


你 可 能 已 经 注意 到 ， 检 查 一 个 I/0 是 否 已 经 完成 是 很 痛苦 的 。 如 果 一 个 
程序 在 某 个 特定 时 间 点 发 出 数 十 或 数 百 个 I/0， 是 否 应 该 重复 检查 它们 
中 的 每 一 个 ， 或 者 先 等 待 一 会 儿 ， 或 者 …… 


为 了 解决 这 个 问题 ， 一 些 系 统 提供 了 基于 中 断 〈interrupt) 的 方法 。 
此 方法 使 用 UNIX 信 号 〈signal) 在 异步 1/0 完 成 时 通知 应 用 程序 ， 从 而 
消除 了 重复 询问 系统 的 需要 。 这 种 轮 询 与 中 断 问题 也 可 以 在 设备 中 看 
到 ， 正 如 你 将 在 IZ0 设 备 章节 中 看 到 的 《或 已 经 看 到 的 ) 。 




















补充 : UNIX 信 号 


所 有 现代 UNIX 变 体 都 有 一 个 称 为 信号 (signal) 的 巨大 而 迷 
人 的 基础 设施 。 最 简单 的 信号 提供 了 一 种 与 进程 进行 通信 的 
方式 。 有 具体 来 说 ， 可 以 将 信号 传递 给 应 用 程序 。 这 样 做 会 让 
应 用 程序 停止 当前 的 任何 工作 ， 开 始 运行 信号 处 理 程序 
(signal handler ) ， 即 应 用 程序 中 某 些 处 理 该 信号 的 代 
人 码 。 完 成 后 ， 访 进程 束 恢 复 其 先前 的 行为 。 


每 个 信号 都 有 一 个 名 称 ， 如 HUP ( 挂 断 ) 、INT (中 断 ) 、 
SEGV (上 段 违 规 ) 等 。 有 关 详 细 人 信息， 请 参阅 手册 页 。 有 趣 的 
是 ， 有 时 是 内 核 本 身 发 出 信号 。 例 如 ， 当 你 的 程序 遇 到 段 违 
规 时 ， 操 作 系 统 发 送 一 个 SIGSEGV (在 信号 名 称 之 前 加 上 SIG 
是 很 常见 的 ) 。 如 果 你 的 程序 配置 为 捕获 该 信号 ， 则 实际 上 
可 以 运行 一 些 代 码 来 响应 这 种 错误 的 程序 行为 (这 可 能 对 调 
试 有 用 ) 。 当 一 个 信号 被 发 送 到 一 个 没有 配置 处 理 该 信号 的 
进程 时 ， 一 些 默认 行为 就 会 生效 。 对 于 SEGV 来 说 ， 这 个 进程 
会 被 杀 死 。 


下 面 一 个 进入 无 限 循环 的 简单 程序 ， 但 首先 设置 一 个 信号 处 
理 程序 来 捕捉 SIGHUP: 


#include <stdio.h> 
#include <signal.h> 





























void handle(int arg) { 
printf("stop wakin' me up...\n"); 


} 


int main(int argc, char *argv[]) { 
signal (SIGHUP, handle); 
while (1) 
; // doin' nothin' except catchin' some sigs 
return 0; 


} 





你 可 以 用 kil1 命 令 行 工 具 向 其 发 送信 号 〈 是 的 ， 这 是 一 个 奇 
怪 而 富有 攻击 性 的 名 称 ) 。 这 样 做 会 中 断 程序 中 的 主 while 循 
环 并 运行 处 理 程序 代码 handle 0 : 

prompt> ./main & 

[3 -3:67035 


prompt> kill -HUP 36705 
stop wakin' me up... 





prompt> kill =HUP 36705 
stop wakin' p. 
prompt> ki i a 36705 
stop wakin' me up. 


要 了 解 信 号 还 有 很 多 事情 要 做 ， 以 至 于 单个 页 面 ， 甚 至 单独 
的 章节 ， 都 远 远 不 够 。 与 往常 一 样 ， 有 一 个 重要 来 源 : 
Stevens 和 Rago 的 书 [SR05] 。 如 果 感 兴趣 ， 请 阅读 。 





在 没有 异步 1/0 的 系统 中 ， 纯 基于 事件 的 方法 无 法 实现 。 然 而 ， 聪 明 的 
研究 人 员 已 经 推出 了 相当 适合 他 们 的 方法 。 例 如 ，Pai 等 人 [PDZ99j] 描 
述 了 一 种 使 用 事件 处 理 网 络 数据 包 的 混合 方法 ， 并 且 使 用 线程 池 来 管 
理 未 完成 的 I/0。 详 情 请 阅读 他 们 的 论文 。 


20. 1 2 | 问题 : 状态 管 


基于 事件 的 方法 的 男 一 个 问题 是 ， 这 种 代码 通常 比 传统 的 基于 线程 的 
代码 更 复杂 。 原 因 如 下 : 当 事 件 处 理 程 序 发 出 异步 1/0 时 ， 它 必须 打包 
一 些 程序 状态 ， 以 便 下 一 个 事件 处 理 程序 在 1/0 最 终 完成 时 使 用 。 这 个 
额外 的 工作 在 基于 线程 的 程序 中 是 不 需要 的 ， 因 为 程序 需要 的 状态 在 
线程 栈 中 。Adya 等 人 称 之 为 手工 栈 管 理 (manual stack 
management ) ， 这 是 基于 事件 编程 的 基础 [A + 02] 。 


为 了 使 这 一 点 更 加 具体 一 些 ， 我 们 来 看 一 个 简单 的 例子 ， 在 这 个 例子 
中， 一 个 基线 程 的 服务 器 和 要 从 文件 描述 符 d) 中 诬 取 数据 
旦 完成 ， 将 从 文件 中 读 取 的 数据 写 入 网 络 套 接 字 描 述 符 5D) 。 代 码 
(忽略 错误 检查 ) 如 下 所 示 : 


int rc = read(fd, buffer, size); 
rc = write(sd, buffer, size); 























如 你 所 见 ， 在 一 个 多 线程 程序 中 ， 做 这 种 工作 很 容易 。 当 read () 最终 
返回 时 ， 代 码 立 即 知道 要 写 入 哪个 套 接 字 ， 因 为 该 信息 位 于 线程 堆栈 
中 《在 变量 sd 中 ) 。 











在 基于 事件 的 系统 中 ， 生 活 并 没有 那么 容易 。 为 了 执行 相同 的 任务 ， 
我 们 首先 使 用 上 面 描述 的 AI0 调 用 异步 地 发 出 读 取 。 假 设 我 们 使 用 
aio_error() 调用 定期 检查 读 取 的 完成 情况 。 当 该 调用 告诉 我 们 读 取 完 
成 时 ， 基 于 事件 的 服务 器 如 何 知道 该 怎么 做 ? 


解决 方案 ， 如 Adya 等 人 [A+02] 所 述 ， 是 使 用 一 种 称 为 “延续 
(continuation) ”的 老 编程 语言 结构 [FHK84] 。 虽 然 听 起 来 很 复杂 ， 
但 这 个 想法 很 简单 : 基本 上 ， 在 某 些 数据 结构 中 ， 记 录 完 成 处 理 该 事 
人 
处 理 


在 这 个 特定 例子 中 ， 解 决 方案 是 将 套 接 字 描 述 符 《sd) 记录 在 由 文件 
描述 符 《〈fd) 索引 的 茶 种 数据 结构 〈 例 如 ， 散 列表 ) 中 。 当 磁盘 I/0 完 
成 时 ， 事 件 处 理 程序 将 使 用 文件 描述 符 来 查找 延续 ， 这 会 将 套 接 字 描 
述 符 的 值 返回 给 调用 者 。 此 时 《最 后 ) ， 服 务 器 可 以 完成 最 后 的 工作 
将 数据 写 入 套 接 字 。 








33.8 什么 事情 仍然 很 难 


基于 事件 的 方法 还 有 其 他 一 些 困 难 ， 我 们 应 该 指出 。 例 如 ， 当 系统 从 
单个 CPU 转 向 多 个 CPU 时 ， 基 于 事件 的 方法 的 一 些 简 单 性 就 消失 了 。 具 
体 来 说 ， 为 了 利用 多 个 CPU， 事 件 服务 器 必须 并 行 运行 多 个 事件 处 理 程 
序 。 发 生 这 种 情况 时 ， 就 会 出 现 常 见 的 同步 问题 “例如 临界 区 ) ， 并 
且 必 须 采 用 通常 的 解决 方案 (例如 锁定 )。 因 此 ， 在 现代 多 核 系统 
上 ， 无 锁 的 简单 事件 处 理 已 不 再 可 能 。 


基于 事件 的 方法 的 另 一 个 问题 是 ， 它 不 能 很 好 地 与 某 些 类 型 的 系统 活 
动 集成 ， 如 分 页 (paging〉。 例 如 ， 如 果 事 件 处 理 程序 发 生 页 错误 ， 
它 将 被 阻塞 ， 并 且 因此 服务 器 在 页 错误 完成 之 前 不 会 有 进展 。 尽 管 服 
务 器 的 结构 可 以 避免 显 式 阻塞 ， 但 由 于 页 错误 导致 的 这 种 隐 式 阻塞 很 
难 避 免 ， 因 此 在 频繁 太 生 时 可 能 会 导致 较 大 的 性 能 问题 。 


还 有 一 个 问题 是 随 着 时 间 的 推移 ， 基 于 事件 的 代码 可 能 很 难 管理 ， 
为 各 种 函数 的 确切 语义 发 生 了 变化 [A+02] 。 例 如 ， 如 果 函 数 从 非 阻 窄 
变 为 阻塞 ， 调 用 该 例 程 的 事件 处 理 程序 也 必须 更 改 以 适应 其 新 性 质 ， 


























方法 是 将 其 自 喘 分 解 为 两 部 分 。 由 于 阻 窟 对 于 基于 事件 的 服务 器 而 言 
I 
变化 。 


最 后 ， 虽 然 异 步 磁 盘 I7/0 现 在 可 以 在 大 多 数 平 台 上 使 用 ， 但 是 花 了 很 长 
时 间 才 做 到 这 一 点 [PDZ99]， 而 且 与 异步 网 络 1/0 和 集成 不 会 像 你 想象 的 
那样 有 简单 和 统一 的 方式 。 例 如 ， 虽 然 人 们 只 想 使 用 select 0 接口 来 
管理 所 有 未 完成 的 I/0， 但 通 芝 需要 组 合用 于 网 络 的 select 0) 和 用 于 破 
盘 I/Z0 的 AI0 调 用 。 





33.9 小 结 


我 们 已 经 介绍 了 不 同 风格 的 基于 事件 的 并 发 。 基 于 事件 的 服务 器 为 应 
用 程序 本 身 提供 了 调度 控制 ， 但 是 这 样 做 的 代价 是 复杂 性 以 及 与 现代 
系统 其 他 方面 〈 例 如 分 页 ) 的 集成 难度 。 由 于 这 些 挑 战 ， 没 有 哪 一 种 
方法 表现 最 好 。 因 此 ， 线 程 和 事件 在 未 来 很 多 年 内 可 能 会 持续 作为 解 
决 同 一 并 发 问题 的 两 种 不 同方 法 。 阅 读 一 些 研究 论文 〈 例 如 [A+02， 
PDZ99，vB+03，WCB01] ) ， 或 者 写 一 些 基于 事件 的 代码 ， 以 了 解 更 多 
信息 ， 这 样 更 好 。 
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关于 如 何在 当今 新 兴 的 互联 网 时 代 构 建 Web 服 务 器 的 开创 性 论文 。 阅 读 
es 并 了 解 作 者 在 缺乏 对 异步 TI/0 文 持 时 如 何 构建 混合 
系 的 想法 。 
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UNIX 系 统 编程 的 经 典 必 备 图 书 。 如 果 你 需要 知道 一 些 细节 ， 就 在 这 
时， 
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Rob von Behren, Jeremy Condit, Feng Zhou, George C. Necula, 
Eric Brewer SOSP ” 03, Lake George, New York, October 2003 


一 篇 关于 如 何 使 线程 在 极端 规模 下 工作 的 论文 ， 这 是 当时 正在 进行 的 
所 有 基于 事件 的 工作 的 反驳 。 


[WCBO1] “SEDA: An Architecture for Well-Conditioned, Scalable 
Internet Services” Matt Welsh, David Culler, and Eric Brewer 





SOSP ” 01, Banff, Canada, October 2001 


基于 事件 的 服务 的 一 个 不 错 的 变通 ， 它 将 线程 、 队 列 和 基于 事件 的 处 
理 合并 为 一 个 简化 的 整体 。 其 中 一 些 想法 已 经 进入 谷歌 、 亚 马 还 等 公 
司 的 基础 设施 。 


第 34 章 ”并 发 的 总 结对 话 


教授 : 那么 ， 你 现在 头疼 吗 ? 


学 生 : 《〈 吃 了 两 颗 治 头疼 的 药 ) 有 点 儿 。 很 难 想象 线程 之 间 有 这 么 多 
种 相互 穿插 的 方式 。 


教授 : 的 确 如 此 。 就 这 么 几 行 代码 ， 并 发 执行 的 时 候 ， 就 变 得 难以 理 
解 ， 很 让 人 意外 啊 。 


学 生 : 我 也 是 。 想 到 自己 是 计算 机 专业 的 学 生 ， 却 不 能 理解 这 几 行 代 
码 ， 有 点 篮 众 。 


教授 : 不 用 这 么 难过 。 你 可 以 看 看 最 早 的 并 发 算法 的 论文 ， 有 很 多 都 
是 有 问题 的 。 这 些 作者 通常 都 是 专家 教授 呢 。 


学 生 : ( 吸 气 ) 教授 也 会 …… 咽 …… 出 错 ? 
教授 ， 是 的 。 但 是 不 要 告诉 别人 一 一 这 是 我 们 之 间 的 秘密 。 


学 生 : 并 发 程序 难以 理解 ， 又 很 难 正 确实 现 ， 我 们 怎么 才能 写 出 正确 
的 并 发 程序 呢 ? 


教授 : 这 确实 是 个 问题 。 我 这 里 有 一 些 简单 的 建议 。 首 先 ， 尽 可 能 简 
单 。 避 免 复杂 的 线程 交互 ， 使 用 已 被 证 实 的 线程 交互 方式 。 

学 生 : 比如 锁 ， 或 者 生产 者 一 消费 者 队列 ? 

教授 : 对 ! 你 们 也 已 经 学 过 了 这 些 常见 的 范式 ， 应 该 能 够 找 出 解决 方 
案 。 还 有 一 点 ， 只 在 需要 的 时 候 才 并 发 ， 尽 可 能 不 用 它 。 过 早 地 优化 
征 最 糟糕 的 。 

学 


生 : 我 明白 了 一 一 为 什么 在 不 需要 时 添加 线程 呢 ? 

















教授 : 是 的 。 如 果 确 实 需要 并 行 ， 那 么 应 该 采用 一 些 简单 的 形式 。 使 
用 Map-Reduce 来 写 并 行 的 数据 分 析 代 码 ， 就 是 一 个 很 好 的 例子 ， 不 需 
要 我 们 考虑 锁 、 条 件 变量 和 其 他 复杂 的 事情 。 


学 生 : Map-Reduce， 听 起 来 很 不 错 呀 一 一 我 得 自己 去 了 解 一 
教授 : 是 这 样 的 。 我 们 学 习 到 的 知识 仅仅 是 冰山 一 角 ， 还 需要 大 量 的 


阅读 学 习 ， 以 及 大 量 的 编码 练习 。 正 如 Gladwell 在 《异类 》 这 本 书 中 
提 到 的 ，1 万 小 时 的 锤炼 ， 才 能 成 为 专家 。 课 程 上 的 时 间 是 远 远 不 够 
的 。 











学 生 : 听 完 感觉 很 振奋 人 心 。 我 要 去 干 活 了 ! 该 写 一 些 并 发 代码 





第 35 章 ”关于 持久 性 的 对 话 


教授 : 现在 ， 我 们 来 到 了 4 个 支柱 中 的 第 三 个 …… 咽 …… 操 作 系 统 的 三 
大 文 柱 ; 持 人 性 。 


学 生 : 你 说 有 3 个 支柱 ， 还 是 4 个 ?第 四 个 是 什么 ? 

教授 : 不 ， 只 有 3 个 ， 年 轻 的 同学 ， 只 有 3 个 。 要 尽量 保持 简单 。 

学 生 : 好 的 ， 很 好 。 但 是 ， 什 么 是 持久 性 ， 噢 ， 尊 贵 的 好 教授 ? 
教授 : 其 实 ， 你 可 能 知道 传统 意义 上 的 含义 ， 对 吧 ? 正如 字典 上 说 
0 0 
学 生 : 这 有 点 像 上 课 ， 需 要 一 点 固执 。 


教授 : 哈 ! 是 的 。 但 这 里 的 持久 意味 着 别 的 东西 。 我 来 解释 一 下 。 想 
象 一 下 ， 你 在 外 面 ， 在 一 片 田野 ， 你 拿 了 一 个 一 一 


学 生 : “《〈 打 上 断 ) 我 知道 ! 桃子 ! 从 桃 树 上 ! 


Re 
学 生 : 《茫然 地 看 着 ) 
教授 : 别管 了 ， 你 拿 了 一 个 桃子 。 事 实 上 ， 你 拿 了 很 多 很 多 的 桃子 ， 


但 是 你 想 让 它们 持久 保持 很 长 时 间 。 毕 竞 ， 冬 天 在 威斯康星 州 是 残酷 
的 。 你 会 怎么 做 ? 


学 生 : 嗯 ,我 认为 你 可 以 做 一 些 不 同 的 事情 。 你 可 以 腌 制 它 ! 或 烤 一 
块 馅 饼 ， 或 者 做 茶 种 果酱 。 很 好 玩 ! 











教授 : 好 玩 ? 可 能 吧 。 当 然 ， 你 必须 做 更 多 的 工作 才能 让 桃子 持久 保 
持 (persist) 下 去 。 信 息 也 是 如 此 。 让 信息 持久 ， 尺 管 计算 机 会 崩 
涡 ， 磁 盘 会 出 故障 或 停电 ， 这 是 一 项 艰巨 而 有 趣 的 挑战 。 

学 生 : 讲 得 漂亮 ， 您 越 来 越 擅长 了 。 

教授 : 谢谢 ! 你 知道 ， 教 授 总 是 可 以 用 一 些 词 。 


学 生 : 我 会 尽量 记 住 这 一 点 。 我 想 是 时 候 停止 谈论 桃子 ， 开 始 谈 计算 
机 了 ? 


教授 ， 是 的 ， 是 时 候 了 .…… 














第 36 章 I/0 设 备 


在 深入 讲解 持久 性 部 分 的 主要 内 容 之 前 ， 我 们 先 介 绍 输入 /输入 
(I/0) 设备 的 概念 ， 并 展示 操作 系统 如 何 与 它们 交互 。 当 然 ，I/0 对 
计算 机 系统 非常 重要 。 设 想 一 个 程序 没有 任何 输入 (每 次 运行 总 会 产 
生 相 同 的 结果 ) ， 或 者 一 个 程序 没有 任何 输出 (为 什么 要 运行 
它 ? ) 。 显 而 易 见 ， 为 了 让 计算 机 系统 更 有 趣 ， 输 入 和 输出 都 是 需要 
的 。 因 此 ， 常 见 的 问题 如 下 。 








关键 问题 ， 如 何 将 I/0 和 集成 进 计算 机 系统 中 


I/0 应 该 如 何 集成 进 系 统 中 ?其 中 的 一 般 机 制 是 什么 ?如 何 让 
它们 变 得 高 效 ? 


36. 1 系统 架构 


开始 讨论 之 前 ， 我 们 先 看 一 个 典型 系统 的 架构 〈 见 图 36.1) 。 其 中 ， 
CPU 通过 某 种 内 存 总 线 (memory bus) 或 互 连 电缆 连接 到 系统 内 存 。 图 
像 或 者 其 他 高 性 能 1/0 设 备 通过 常规 的 I/0 总 线 (I/0 bus) 连接 到 系 
统 ， 在 许多 现代 系统 中 会 是 PCI 或 它 的 衍生 形式 。 最 后 ， 更 下 面 是 外 围 
总 线 (peripheral bus) ， 比 如 SCSI、SATA 或 者 USB。 它 们 将 最 慢 的 设 
备 连 接 到 系统 ， 包 括 磁 盘 、 鼠 标 及 其 他 类 似 设备 。 
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原型 系统 架构 


内 存 品 线 ( 专 相 的 ) 


通用 WO 总 线 《如 PCD 


(如 SCSI、 SATA、 USB) 


你 可 能 会 问 : 为 什么 要 用 这 样 的 分 层 架 构 ? 简单 回答 : 因为 物理 布局 
及 造价 成 本 。 越 快 的 总 线 越 短 ， 因 此 高 性 能 的 内 存 总 线 没 有 足够 的 衬 
间 连 接 太 多 设备 。 另 外 ， 在 工程 上 高 性 能 总 线 的 造价 非常 高 。 所 以 ， 
系统 的 设计 采用 了 这 种 分 层 的 方式 ， 这 样 可 以 让 要 求 高 性 能 的 设备 
(比如 显卡 ) 离 CPU 更 近 一 些 ， 低 性 能 的 设备 离 CPU 远 一 些 。 将 磁盘 和 
其 他 低速 设备 连 到 外 围 总 线 的 好 处 很 多 ， 其 中 较为 突出 的 好 处 就 是 你 
可 以 在 外 围 总 线 上 连接 大 量 的 设备 。 





36. 2 标准 设备 





现在 来 看 一 个 标准 设备 (不 是 真实 存在 的 ) ， 通 过 它 来 帮助 我 们 更 好 
地 理解 设备 交互 的 机 制 。 从 图 36. 2 中 ， 可 以 看 到 一 个 包含 两 部 分 重要 
组 件 的 设备 。 第 一 部 分 是 向 系统 其 他 部 分 展现 的 人 硬件 接口 
Cinterface) 。 同 软件 一 样 ， 硬 件 也 需要 一 些 接口 ， 让 系统 软件 来 控 
制 它 的 操作 。 因 此 ， 所 有 设备 都 有 上 自己 的 特定 接口 以 及 典型 交互 的 协 


议 。 


短处 理 器 (CPU) 
内 存 (DRAM 或 SRAM 或 都 有 ) 内 部 
其 他 硬件 特定 的 书 片 


图 36. 2 ”标准 设备 

















第 2 部 分 是 它 的 内 部 结构 (internal structure) 。 这 部 分 包含 设备 相 
关 的 特定 实现 ， 负 责 具 体 实 现 设备 展示 给 系统 的 抽象 接口 。 非 常 简单 
的 设备 通常 用 一 个 或 几 个 蕊 片 来 实现 它们 的 功能 。 更 复杂 的 设备 会 包 
合 简 单 的 CPU、 一 些 通用 内 存 、 设 备 相关 的 特定 芯片 ， 来 完成 它们 的 工 





作 。 例 如 ， 现 代 RAID 控 制 器 通常 包含 成 百 上 干 行 固 件 (firmware， 即 
人 硬件 设备 中 的 软件 ) ， 以 实现 其 功能 。 


36. 3 标准 协议 





在 图 36.2 中 ， 一 个 (简化 的 ) 设备 接口 包含 3 个 寄存 器 : 一 个 状态 
(Cstatus ) 寄存 器 ， 可 以 读 取 并 查看 设备 的 当前 状态 ; 一 个 命令 
(command ) 寄存 器 ， 用 于 通知 设备 执行 某 个 具体 任务 ; 一 个 数据 
(data) 寄存 器 ， 将 数据 传 给 设备 或 从 设备 接收 数据 。 通 过 读 写 这 些 
寄存 器 ， 操 作 系 统 可 以 控制 设备 的 行为 。 


我 们 现在 来 描述 操作 系统 与 该 设备 的 典型 交互 ， 以 便 让 设备 为 它 做 某 
事 o 协议 如 下 : 


While (STATUS == BUSY) 
; // wait until device is not busy 
Write data to DATA register 
Write command to COMMAND register 
(Doing so starts the device and executes the command) 
While (STATUS == BUSY) 
; // wait until device is done with your request 














该 协议 包含 4 步 。 第 1 步 ， 操 作 系统 通过 反复 读 取 状 态 寄存 器 ， 等 待 设 
备 进 入 可 以 接收 命令 的 就 绪 状 态 。 我 们 称 之 为 轮 询 (polling) 设备 
(基本 上 ， 就 是 问 它 正在 做 什么 ) 。 第 2 步 ， 操 作 系统 下 发 数据 到 数据 
寄存 器 。 例 如 ， 你 可 以 想象 如 果 这 是 一 个 磁盘 ， 需 要 多 次 写 入 操作 ， 
将 一 个 磁盘 块 〈 比 如 4KB) 传递 给 设备 。 如 果 主 CPU 参 与 数据 移动 就 
像 这 个 示例 协议 一 样 ) ， 我 们 就 称 之 为 编程 的 I/0 (programmed I/0， 
PI0) 。 第 3 步 ， 操 作 系统 将 命令 写 入 命令 寄存 器 ， 这 样 设 备 就 知道 数 
据 已 经 准备 好 了 ， 它 应 该 开始 执行 命令 。 最 后 一 步 ， 操 作 系统 再 次 通 
过 不 断 轮 询 设备 ， 等 待 并 判断 设备 是 否 执行 完成 命令 (有 可 能 得 到 一 
个 指示 成 功 或 失败 的 错误 码 ) 。 


这 个 简单 的 协议 好 处 是 足够 简单 并 且 有 效 。 但 是 难免 会 有 一 些 低 效 和 
不 方便 。 我 们 注意 到 这 个 协议 存在 的 第 一 个 问题 就 是 轮 询 过 程 比 较 低 
效 ， 在 等 竺 设备 执行 完成 合 令 时 溪 费 大 量 CPU 时 间 ， 如 果 此 时 操作 系统 
可 以 切换 执行 下 一 个 驶 绪 进程 ， 就 可 以 大 大 提高 CPU 的 利用 率 。 








关键 问题 : 如 何 减少 轮 询 开 销 


操作 系统 检查 设备 状态 时 如 何 避 免 频 繁 轮 询 ， 从 而 降低 管理 
设备 的 CPU 开销 ? 


36.4 利用 中 断 减 少 CPU 开 销 





多 年 前 ， 工 程 师 们 发 明了 我 们 目前 已 经 很 常见 的 中 断 〈interfrupt) 来 
减少 CPU 开销 。 有 了 中 断后 ，CPU 不 再 需要 不 断 轮 询 设备 ， 而 是 癌 设 备 
发 出 一 个 请 求 ， 然 后 就 可 以 让 对 应 进程 睡眠 ， 切 换 执行 其 他 任务 。 当 
设备 完成 了 自身 操作 ， 会 抛 出 一 个 硬件 中 断 ， 引 发 CPU 跳 转 执行 操作 系 
统 预先 定义 好 的 中 断 服 务 例 程 〈Interfrupt Service Routine ， 
ISR) ， 或 更 为 简单 的 中 断 处 理 程 序 (interrupt handler ) 。 中 断 处 
理 程 序 是 一 小 段 操作 系统 代码 ， 它 会 结束 之 前 的 请 求 〈 比 如 从 设备 读 
取 到 了 数据 或 者 错误 码 ) 并 且 唤 醒 等 待 I/0 的 进程 继续 执行 。 


因此 ， 中 断 允 许 计 算 与 I/0 重 登 (overlap) ， 这 是 提高 CPU 利用 率 的 关 
键 。 下 面 的 时 间 线 展示 了 这 一 点 : 
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其 中 ， 进 程 1 在 CPU 上 运行 一 段 时 间 (对 应 CPU 那 一 行 上 重复 的 1) ， 然 
后 发 出 一 个 读 取 数据 的 1/0 请 求 给 磁盘 。 如 果 没 有 中 断 ， 那 么 操作 系统 
就 会 简单 自 旋 ， 不 断 轮 询 设备 状态 ， 直 到 设备 完成 I/0 操 作 〈 对 应 其 中 
的 p) 。 当 设备 完成 请 求 的 操作 后 ， 进 程 1 又 可 以 继续 运行 。 


a 中 晰 并 人 允许 重 琶 ， 操 作 系统 就 可 以 在 等 待 磁盘 操作 时 做 
大 情 : 
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在 这 个 例子 中 ， 在 磁盘 处 理 进程 1 的 请 求 时 ， 操 作 系 统 在 CPU 上 运行 进 
程 2。 磁 盘 处 理 完成 后 ， 触 发 一 个 中 断 ， 然 后 操作 系统 唤醒 进程 1 继续 
运行 。 这 样 ， 在 这 段 时 间 ， 无 论 CPU 还 是 磁盘 都 可 以 有 效 地 利用 。 


注意 ， 使 用 中 断 并 非 总 是 最 佳 方案 。 假 如 有 一 个 非常 高 性 能 的 设备 ， 
它 处 理 请 求 很 快 : 通常 在 CPU 第 一 次 轮 询 时 就 可 以 返回 结果 。 此 时 如 果 
使 用 中 断 ， 反 而 会 使 系统 变 慢 : 切换 到 其 他 进程 ， 处 理 中 断 ， 再 切换 
回 之 前 的 进程 代价 不 小 。 因 此 ， 如 果 设 备 非常 快 ， 那 么 最 好 的 办 法 反 
而 是 轮 询 。 如 果 设 备 比较 慢 ， 那 么 采用 允许 发 生 重 登 的 中 断 更 好 。 如 
果 设 备 的 速度 未 知 ， 或 者 时 快 时 慢 ， 可 以 考虑 使 用 混合 (hybrid) 策 
略 ， 先 尝试 轮 询 一 小 段 时 间 ， 如 果 设 备 没有 完成 操作 ， 此 时 再 使 用 中 
呆 。 这 种 两 阶段 〈two-phased) 的 办 法 可 以 实现 两 种 方法 的 好 处 。 





提示 : 中 断 并 非 总 是 比 PI0 好 


尽管 中 断 可 以 做 到 计算 与 1/0 的 重合 ， 但 这 仪 在 慢 速 设备 上 有 
意义 。 和 否则 ， 额 外 的 中 断 处理 和 上 下 文 切 换 的 代价 反而 会 超 
过 其 收益 。 另 外 ， 如 果 短 时 间 内 出 现 大 量 的 中 断 ， 可 能 会 使 
得 系统 过 载 并 且 引 发 活 锁 [MR96] 。 这 种 情况 下 ， 轮 询 的 方式 
可 以 在 操作 系统 自身 的 调度 上 提供 更 多 的 控制 ， 反 而 更 有 


» 


效 。 





男 一 个 最 好 不 要 使 用 中 断 的 场景 是 网 络 。 网 络 端 收 到 大 量 数 据 包 ， 如 
果 每 一 个 包 都 发 生 一 次 中 断 ， 那 么 有 可 能 导致 操作 系统 发 生活 锁 
Clivelock) ， 即 不 断 处 理 中 断 而 无 法 处 理 用 户 层 的 请 求 。 例 如 ， 假 
设 一 个 Web 服 务 器 因为 “点 杠 效应 ”而 突然 承受 很 重 的 负载 。 这 种 情况 
下 ， 偶 尔 使 用 轮 询 的 方式 可 以 更 好 地 控制 系统 的 行为 ， 并 允许 Web 服 务 
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另 一 个 基于 中 断 的 优化 就 是 合并 〈coalescing) 。 设 备 在 抛 出 中 断 之 
前 往往 会 等 待 一 小 段 时 间 ， 在 此 期 间 ， 其 他 请 求 可 能 很 快 完 成 ， 因 此 
多 次 中 断 可 以 合并 为 一 次 中 断 抛 出 ， 从 而 降低 处 理 中 断 的 代价 。 当 
然 ， 等 待 太 长 会 增加 请 求 的 延迟 ， 这 是 系统 中 常见 的 折 中 。 参 见 Ahmad 
等 人 的 文章 [A+11]， 有 精彩 的 总 结 。 





36.5 利用 DMA 进 行 更 高 效 的 数据 传送 


标准 协议 还 有 一 点 需要 我 们 注意 。 具 体 来 说 ， 如 果 使 用 编程 的 1/0 将 一 
大 块 数据 传 给 设备 ，CPU 又 会 因为 琐碎 的 任务 而 变 得 负载 很 重 ， 肖 绽 了 
时 间 和 算 力 ， 本 来 更 好 是 用 于 运行 其 他 进程 。 下 面 的 时 间 线 展示 了 这 


个 问题 : 





CPU 
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进程 1 在 运行 过 程 中 需要 问 人 磁盘 写 一 些 数据 ， 所 以 它 开始 进行 1/0 操 
作 ， 将 数据 从 内 存 拷贝 到 磁盘 (其 中 标示 c 的 过 程 》。 找 贝 结束 后 ， 磁 
盘 上 的 1/0 操 作 开 始 执行 ， 此 时 CPU 才 可 以 处 理 其 他 请 求 。 





关键 问题 ， 如 何 减少 PI0 的 开销 


使 用 PI0 的 方式 ，CPU 的 时 间 会 浪费 在 癌 设备 传输 数据 或 从 设 
Cn 
^] 不 | 2 到 2 


解决 方案 就 是 使 用 DMA (Direct Memory Access) 。DMA 引 擎 是 系统 中 
的 一 个 特殊 设备 ， 它 可 以 协调 完成 内 存 和 设备 则 的 数据 传 选 ， 个 需要 
CPU A 


DMA 工 作 过 程 如 下 。 为 了 能 够 将 数据 传送 给 设备 ， 操 作 系统 会 通过 编程 
告诉 DMA 引 擎 数据 在 内 存 的 位 置 ， 要 拷贝 的 大 小 以 及 要 拷贝 到 哪个 设 
备 。 在 此 之 后 ， 操 作 系 统 就 可 以 处 理 其 他 请 求 了 。 当 DMA 的 任务 完成 
后 ，DMA 控 制 器 会 抛 出 一 个 中 断 来 告诉 操作 系统 上 自己 已 经 完成 数据 传 
输 。 修 改 后 的 时 间 线 如 下 : 





bit oud 


从 时 间 线 中 可 以 看 到 ， 数 据 的 找 贝 工作 都 是 由 DMA 控 制 占 来 完成 的 。 因 
为 CPU 在 此 时 是 空间 的 ， 所 以 操作 系统 可 以 让 它 做 一 些 其 他 事情 ， 比 如 








此 处 调度 进程 2 到 CPU 来 运行 。 因 此 进程 2 在 进程 1 再 次 运行 之 前 可 以 使 
用 更 多 的 CPU。 


36.6 设备 交互 的 方法 


现在 ， 我们 了 解 了 执行 1/0 涉 及 的 效率 问题 后 ， 还 有 其 他 一 些 问题 需要 
解决 ， 以 便 将 设备 合并 到 系统 中 。 你 可 能 已 经 注意 到 了 一 个 问题 : 我 
们 还 没有 真正 讨论 过 操作 系统 究竟 如 何 与 设备 进行 通信 ! 所 以 问题 如 
Ts 


关键 问题 : 如 何 与 设备 通信 





硬件 如 何如 与 设备 通信 ? 是 否 需 要 一 些 明确 的 指令 ? 或 者 其 
他 的 方式 ? 





随 着 技术 的 不 断 发 展 ， 主 要 有 两 种 方式 来 实现 与 设备 的 交互 。 第 一 种 
办 法 相对 老 一 些 〈 在 IBM 主 机 中 使 用 了 多 年 ) ， 就 是 用 明确 的 IZ0 指 
令 。 这 些 指 令 规定 了 操作 系统 将 数据 发 送 到 特定 设备 寄存 器 的 方法 ， 
从 而 允许 构造 上 文 提 到 的 协议 。 


例如 在 x86 上 ，in 和 out 指 令 可 以 用 来 与 设备 进行 交互 。 当 需要 发 送 数 
据 给 设备 时 ， 调 用 者 指定 一 个 存 入 数据 的 特定 寄存 器 及 一 个 代表 设备 
的 特定 端口 。 执 行 这 个 指令 就 可 以 实现 期 望 的 行为 。 


这 些 指 令 通常 是 特权 指令 (privileged) 。 操 作 系 统 是 唯一 可 以 直接 
与 设备 交互 的 实体 。 例 如 ， 设 想 如 果 任 意 程 序 都 可 以 直接 读 写 磁盘 : 
完全 混乱 〈 总 是 会 这 样 ) ， 因 为 任何 用 户 程序 都 可 以 利用 这 个 漏洞 来 
取得 计算 机 的 全 部 控制 权 。 


第 二 种 方法 是 内 存 上 映射 IL/0 (memory- mapped I/0); 。 通 过 这 种 方式 ， 
硬件 将 设备 寄存 器 作为 内 存 地 址 提供 。 当 需要 访问 设备 寄存 器 时 ， 操 
作 系 统 装 载 ( 读 取 ) 或 者 存 入 〈 写 入 ) 到 该 内 存 地 址 ; 然后 硬件 会 将 
装载 / 存 入 转移 到 设备 上 ， 而 不 是 物理 内 存 。 


两 种 方法 没有 一 种 具备 极 大 的 优势 。 内 存 映射 I/0 的 好 处 是 不 需要 引入 
新 指令 来 实现 设备 交互 ， 但 两 种 方法 今天 都 在 使 用 。 








36.7 纳入 操作 系统 : 设备 驱动 程序 


最 后 我 们 要 讨论 一 个 问题 : 每 个 设备 都 有 非常 具体 的 接口 ， 如 何 将 它 
们 纳入 操作 系统 ， 而 我 们 希望 操作 系统 尽 可 能 通用 。 例 如 文件 系统 ， 
我 们 希望 开发 一 个 文件 系统 可 以 工作 在 SCSI 硬 盘 、IDE 硬 盘 、USB 钥 是 
串 设备 等 设备 之 上 ， 并 且 希 望 这 个 文件 系统 不 那么 清楚 对 这 些 不 同 设 
备 发 出 读 写 请 求 的 全 部 细节 。 因 此 ， 我 们 的 问题 如 下 。 








关键 问题 ， 如何 实现 一 个 设备 无 关 的 操作 系统 


如 何 保持 操作 系统 的 大 部 分 与 设备 无 关 ， 从 而 对 操作 系统 的 
主要 子 系统 隐藏 设备 交互 的 细节 ? 





这 个 问题 可 以 通过 古老 的 抽象 (abstraction) 技术 来 解决 。 在 最 底 
层 ， 操 作 系 统 的 一 部 分 软件 清楚 地 知道 设备 如 何 工 作 ， 我 们 将 这 部 分 
软件 称 为 设备 驱动 程序 (device driver) ， 所 有 设备 交互 的 细节 都 封 
装 在 其 中 。 


我 们 来 看 看 Linux 文 件 系 统 栈 ， 理 解 抽象 技术 如 何 应 用 于 操作 系统 的 设 
计 和 实现 。 图 36. 3 粗略 地 展示 了 Linux 软 件 的 组 织 方式 。 可 以 看 出 ， 文 
件 系统 〈 当 然 也 包括 在 其 之 上 的 应 用 程序 ) 完全 不 清楚 它 使 用 的 是 什 
么 类 型 的 磁盘 。 它 只 需要 简单 地 向 通用 块 设备 层 发 送 读 写 请 求 即 可 ， 
块 设备 层 会 将 这 些 请 求 路 由 给 对 应 的 设备 驱动 ， 然 后 设备 驱动 来 完成 
真正 的 底层 操作 。 尺 管 比较 简单 ， 但 图 36. 3 展示 了 这 些 细节 如 何 对 操 
作 系 统 的 大 部 分 进行 隐藏 。 





POSIX API[open, read, write, etc .| 


文件 系统 
通用 块 接口 [ 块 读 写 ] 













具体 块 接口 [协议 特定 的 庶 / 写 | 
设备 驱动 程序 [SCSI, ATA, etc ] 


图 36.3 文件 系统 栈 


注意 ， 这 种 封装 也 有 不 足 的 地 方 。 例 如 ， 如 果 有 一 个 设备 可 以 提供 很 
多 特殊 的 功能 ， 但 为 了 兼容 大 多 数 操作 系统 它 不 得 不 提供 一 个 通用 的 
接口 ， 这 样 就 使 得 自身 的 特殊 功能 无 法 使 用 。 这 种 情况 在 使 用 SCSI 设 
备 的 Linux 中 整改 生 了 。SCSI 设 备 提供 非常 丰富 的 报告 错误 信息 ， 但 其 
他 的 块 设备 (比如 ATA/IDE〉 只 提供 非常 简单 的 报错 处 理 ， 这 样 上 层 的 
所 有 软件 只 能 在 出 错时 收 到 一 个 通用 的 EI0 错 误 码 (一 般 I0 错 误 )， 
SCSI 可 能 提供 的 所 有 附加 信息 都 不 能 报告 给 文件 系统 [608]。 


有 趣 的 是 ， 因 为 所 有 需要 插入 系统 的 设备 都 需要 安装 对 应 的 驱动 程 
序 ， 所 以 和 久而久之， 驱动 程序 的 代码 在 整个 内 核 代码 中 的 占 比 越 来 越 
大 。 碍 看 Linux 内 核 代 码 会 发 现 ， 超 过 70% 的 代码 都 是 各 种 驱动 程序 。 
在 Windows 系 统 中 ， 这 样 的 比例 同样 很 高 。 因 此 ， 如 果 有 人 跟 你 说 操作 
系统 包含 上 百 万 行 代 码 ， 实 际 的 意思 是 包含 上 百 万 行 驱动 程序 代码 。 
当然 ， 任 何 安 装 进 操 作 系 统 的 驱动 程序 ， 大 部 分 默认 都 不 是 激活 状态 
(只 有 一 小 部 分 设备 是 在 系统 刚 开 局 时 就 需要 连接 ) 。 更 加 令 人 泪 形 
的 是 ， 因 为 驱动 程序 的 开发 者 大 部 分 是 “业余 的 ”【〔 不 是 全 职 内 核 开 
人 
S031。 























36.8 案例 研究 ; 简单 的 IDE 磁 盘 驱 动 程 序 


为 了 更 深入 地 了 解 设 备 驱动 ， 我 们 快速 看 看 一 个 真实 的 设备 一 一 IDE 磁 
盘 驱 动 程序 [L94] 。 我 们 总 结 了 协议 ， 如 参考 文献 [W10] 所 述 。 我 们 也 
会 看 看 xv6 源 码 中 一 个 简单 的 、 能 工作 的 IDE 驱 动 程序 实现 。 


IDE 人 硬盘 暴 圳 给 操作 系统 的 接口 比较 简单 ， 包 含 4 种 类 型 的 寄存 器 ， 即 
控制 、 命 令 块 、 状 态 和 错误 。 在 x86 上 ， 利 用 I/0 指 令 in 和 out 向 特定 的 
I/0 地 址 (如 下 面 的 0x3F6) 读 取 或 写 入 时 ， 可 以 访问 这 些 寄存 器 ， 如 
图 36. 4 所 示 。 


Control Register: 
Address 0x3F6 = 0x80 (0000 1lRE0): R=reset, E=0 means "enable interrupt" 














Command Block Registers: 
Address 0xlF0 = Data Port 
Address OxlF]1 = Error 





Address 0X1LEF2 
Address 0xlF3 
Address OxlF4 
Address 0xlF5 
Address OxlF6 
Address 0xlF7 


Sector Count 

LBA low byte 

LBA mid byte 

LBA hi byte 

1B1D TOP4LBA: B=LBA, D=drive 
Command/status 





Status Register (Address 0x1F7) : 
6 5 4 3 2 1 0 
BUSY READY FAULT SEEK DRO CORR IDDEX ERROR 



































Error Register (Address 0xlF1): (check when Status ERROR==1) 
7 6 5 4 3 2 1 0 
BBK UNC MC IDNF MCR ABRT TONF AMNE 


BBK = Bad Block 

UNC = Uncorrectable data error 
MC = Media Changed 

IDNF = ID mark Not Found 

MCR = Media Change Requested 
ABRT Command aborted 

TONF Track 0 Not Found 

AMNF = Address Mark Not Found 





图 36. 4 ” IDE 接口 





下 面 是 与 设备 交互 的 简单 协议 ， 假 设 它 已 经 初始 化 了 ， 如 图 36. 5 所 


小 。 


等 待 驱动 就 绊 。 读 取 状 态 寄 存 器 〈0xlF7) 直到 驱动 READY 而 非 忙 


他 。 

向 命令 寄存 器 写 入 参数 。 写 入 扇 区 数 ， 待 访问 扇 区 对 应 的 逻辑 块 
地 址 (LBA) ， 并 将 驱动 编号 (master=0x00，slave=0x10， 因 为 
IDE 人 允许 接 入 两 个 便 往 ) 写 入 命令 寄存 器 (0xlF2-0xlF6) 。 

开启 I/0。 发 送 读 写 命令 到 命令 寄存 器 。 向 命令 寄存 器 〈0xlF7) 
中 写 入 READ-WRITE 命令 。 

数据 传送 (针对 写 请 求 ): 等 待 直 到 驱动 状态 为 READY 和 DRQ〔 豫 
动 请 求 数据 ) ， 向 数据 端口 写 入 数据 。 

中 断 处 理 。 在 最 简单 的 情况 下 ， 每 个 扇 区 的 数据 传送 结束 后 都 会 
触发 一 次 中 断 处 理 程序 。 较 复杂 的 方式 支持 批 处 理 ， 全 部 数据 传 
送 结束 后 才 会 触发 一 次 中 断 处 理 。 

错误 处 理 。 在 每 次 操作 之 后 读 取 状态 寄存 器 。 如 果 ERROR 位 被 置 
位 ， 可 以 读 取 错误 寄存 器 来 获取 详细 信息 。 

static int ide wait ready() { 
while (((int r = inb (0xl1f7) 














) & IDE BSY) || !(r & IDE DRDY)) 
// loop until drive isn't busy 








} 


static void ide start request (Struct buf xb) { 
ide wait ready (); 





























outb (Ox3f£f6, 0); // generate interrupt 
outb (Ox1f2, 1); // how many sectors? 
outb (0xl1f3，b->sector & Oxff); // LBA goes here ... 
outb (Oxlf4, (b->sector >> 8) & Oxff); /YY ss And here 
outb (0xl1f5， (b->sector >> 16) & Oxff); // ... and here! 
outb (Ox1lf6, Oxe0 | ((b->dev&1)<<4) | ((b->sector>>24) &0x0f)); 
if (b->flags & B DIRTY)I{ 
outb (Oxl1f7, IDE 2 D _WRITE); // this is a WRITE 
outsl (0xl1f0, b->data, 512/4); // transfer data too! 
} else 
outb (0x1f7， IDE CMD READ); // this is a READ (no data) 


} 
} 


void ide rw(struct buf *b) { 
acquire(&ide lock); 
for (struct buf **pp = &ide queue; *pp; pp=& (*pp)->qnext) 
7 // walk queue 
*pp = b; // add request to end 


if (ide queue == b) // if q is empty 
ide start request (b); // send req to disk 
while ((b->flags & (B VALIDIB DIRTY)) != B VALID) 
sleep(b, &ide lock); // wait for completion 


release(&ide lock); 


} 


void ide intr() { 
Struct Buf. *by 
acquire(&ide lock); 











if (!(b->flags & B DIRTY) && ide wait ready() >= 0) 
insl (Oxl1f0, b->data, 512/4); // if READ: get data 
b->flags |= B VALID; 
b->flags &= B DIRTY; 
wakeup (b); // wake waiting process 
if ((ide queue = b->qnext) != 0) // start next request 
ide start request (ide queue); // (if one exists) 


release(&ide lock); 





图 36. 5 xv6 的 IDE 硬 盘 驱 动 程序 (简化 的 ) 


该 协议 的 大 部 分 可 以 在 xv6 的 IDE 驱 动 程序 中 看 到 ， 它 (在 初始 化 后 》 
通过 4 个 主要 函数 来 实现 。 第 一 个 是 ide_rw() ， 它 会 将 一 个 请 求 加 入 队 
列 ( 如 果 前 面 还 有 请 求 未 处 理 完成 ) ， 或 者 直接 将 请 求 发 送 到 磁盘 
(通过 ide_start request()) 。 不 论 哪 种 情况 ， 调 用 进程 进入 睡眠 状 
态 ， 等 待 请 求 处 理 完成 。 第 二 个 是 ide_ start_request()， 它 会 将 请 求 
发 送 到 磁 冰 (在 写 请 求 时 ， 可 能 是 发 送 数据 ) 。 此 时 x86 的 in 或 out 指 
令 会 被 调用 ， 以 读 取 或 写 入 设备 寄存 器 。 在 发 起 请 求 之 前 ， 开 始 请 求 
函数 会 使 用 第 三 个 国 来 确保 驱动 处 于 就 绪 状 
态 。 最 后 ， 当 发 生 中 断 时 ，ide_intr () 会 会 被 调用 。 它 会 从 设备 中 读 取 














数据 (如 果 是 读 请 求 ) ， 并 且 在 结束 后 唤醒 等 竺 的 进程 ， 如 果 此 时 在 
队列 中 还 有 别 的 未 处 理 的 请 求 ， 则 调用 ide_start request 0 接着 处 理 
下 一 个 1/0 请 求 。 


36.9 历史 记录 


在 结束 之 前 ， 我 们 简 述 一 下 这 些 基 本 思想 的 由 来 。 如 果 你 想 了 解 更 多 
内 容 ， 可 以 阅读 Smotherman 的 出 色 总 结 [S08] 。 


中 断 的 思想 很 古老 ， 存 在 于 最 早 的 机 器 之 中 。 例 如 ，20 世 纪 50 年 代 的 
UNIVAC 上 就 有 某 种 形式 的 中 断 向 量 ， 虽 然 无 法 确定 具体 是 哪 一 年 出 现 
的 [S08] 。 遗 憾 的 是 ， 即 使 现在 还 是 计算 机 诞生 的 初期 ， 我 们 就 开始 丢 
失 了 起 缘 的 历史 记录 。 


关于 什么 机 器 第 一 个 使 用 DMA 技 术 也 有 争论 。Knuth 和 一 些 人 认为 是 
DYSEAC (一 种 “移动 ”计算 机 ， 当 时 意味 着 可 以 用 拖车 运输 它 ) ， 而 
另外 一 些 人 则 认为 是 IBM SAGE[S08] 。 无 论 如 何 ， 在 20 世 纪 50 年 代 中 
期 ， 就 有 系统 的 I/0 设 备 可 以 直接 和 内 存 交 互 ， 并 在 完成 后 中 断 CPU。 


这 段 历史 比较 难 妃 调 ， 因 为 相关 发 明 都 与 真实 的 、 有 时 不 太 出 名 的 机 
器 联系 在 一 起 。 例 如 ， 有 些 人 认为 Lincoln Labs TX-2 是 第 一 个 拥有 问 
量 中 断 的 机 器 [S08]， 但 这 无 法 确定 。 


因为 这 些 技术 思想 相对 明显 在 等 待 缓慢 的 1/0 操 作 时 让 CPU 去 做 其 他 
事情 ， 这 种 想法 不 需要 爱 因 斯 坦 式 的 跃 ) ， 也 许 我 们 关注 “ 谁 第 
一 ”是 误 入 歧途 。 肯 定 明 确 的 是 : 在 人 们 构建 早期 的 机 器 系统 时 ，I/0 
文 持 是 必需 的 。 中 断 、DMA 及 相关 思想 都 是 在 快速 CPU 和 慢 速 设备 之 间 
权衡 的 结果 。 如 果 你 处 于 那个 时 代 ， 可 能 也 会 有 同样 的 想法 。 











36. 10 小结 





至 此 你 应 该 对 操作 系统 如 何 与 设备 交互 有 了 非常 基本 的 理解 。 本 章 介 
绍 了 两 种 技术 ， 中 断 和 DMA， 用 于 提高 设备 效率 。 我 们 还 介 绍 了 访问 设 
备 寄存 器 的 两 种 方式 ， 1/0 指 令 和 内 存 映射 1/0。 最 后 ， 我 们 介绍 了 设 
备 驱 动 程序 的 概念 ， 展 示 了 操作 系统 本 身 如 何 封 装 底层 细节 ， 从 而 更 
容易 以 设备 无 关 的 方式 构建 操作 系统 的 其 余部 分 。 
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第 37 章 ”磁盘 驱动 器 


第 36 章 介绍 了 I/0 设 备 的 一 般 概念 ， 并 展示 了 操作 系统 如 何 与 这 种 东西 
进行 交互 。 在 本 章 中 ， 我 们 将 更 详细 地 介绍 一 种 设备 : 磁盘 驱动 髓 

(hard disk drive) 。 数 十 年 来 ， 这 些 驱 动 器 一 直 是 计算 机 系统 中 持 
久 数 据 存储 的 主要 形式 ， 文 件 系 统 技术 “即将 探讨 ) 的 大 部 分 发 展 都 
是 基于 它们 的 行为 。 因 此 ， 在 构建 管理 它 的 文件 系统 软件 之 前 ， 有 必 
要 先 了 解 人 磁盘 操作 的 细节 。Ruemmler 和 Wilkes [RW92] ， 以 及 
Anderson、Dykes 和 Riedel [ADR03] 在 他 们 的 优秀 论文 中 提供 了 许多 这 
方面 的 细节 。 








关键 问题 ， 如何 存储 和 访问 磁盘 上 的 数据 


现代 磁盘 驱动 带 如 何 存储 数据 ? 接口 是 什么 ? 数据 是 如 何 安 
排 和 访问 的 ? 磁盘 调度 如 何 提高 性 能 ? 


37.1 接口 


我 们 先 来 了 解 一 个 现代 磁盘 驱动 器 的 接口 。 所 有 现代 驱动 器 的 基本 接 
口 都 很 简单 。 驱 动 器 由 大 量 扇 区 (512 字 节 块 ) 组成， 每 个 扇 区 都 可 以 
读 取 或 写 入 。 在 具有 7 个 扇 区 的 磁盘 上 ， 扇 区 从 0 到 二 1 编号 。 因 此 ， 我 
们 可 以 将 磁盘 视 为 一 组 扇 区 ，0 到 二 1 是 驱动 器 的 地 址 空间 (address 


space) 。 
多 局 区 操作 是 可 能 的 。 实 际 上 ， 许 多 文件 系统 一 次 读 取 或 写 入 4KB (或 


更 多 ) 。 但 是 ， 在 更 新 磁盘 时 ， 驱 动 器 制造 商 唯一 保证 的 是 单个 512 字 
节 的 写 入 是 原子 的 (atomic， 即 它 将 完整 地 完成 或 者 根本 不 会 完 











成 ) 。 因 此 ， 如 果 发 生 不 合 时 宜 的 掉 电 ， 则 只 能 完成 较 大 写 入 的 一 部 
分 [有 时 称 为 不 完整 号 入 (torn write) ]。 


大 多 数 磁 盘 张 动 器 的 客户 端 都 会 做 出 一 些 假设 ， 但 这 些 假设 并 未 直接 
在 接口 中 指定 。Schlosser 和 Ganger 称 这 是 磁盘 驱动 右 的 “不 成 文 的 合 
同 ”[SG04] 。 具 体 来 说 ， 通 常 可 以 假设 访问 驱动 器 地 址 空间 内 两 个 彼 
此 靠近 的 块 将 比 访 问 两 个 相隔 很 远 的 块 更 快 。 人 们 通常 也 可 以 假设 访 
问 连 续 块 〈 即 顺序 读 取 或 写 入 ) 是 最 快 的 访问 模式 ， 并 且 通 常 比 任何 
更 随机 的 访问 模式 快 得 多 。 





37.2 基本 几何 形状 


让 我 们 开始 了 解 现代 磁 稻 的 一 些 组 件 。 我 们 从 一 个 盘 上 请 (platter) 开 
始 ， 它 是 一 个 圆 形 坚硬 的 表面 ， 通 过 引入 磁性 变化 来 永久 存储 数据 。 
磁盘 可 能 有 一 个 或 多 个 盘 片 。 每 个 盘 族 有 两 面 ， 每 面 都 称 为 表面 。 这 
些 盘 片 通常 由 一 些 硬 质 材料 〈 如 铝 ) 制 成 ， 然 后 涂 上 薄 薄 的 磁性 层 ， 
即使 驱动 器 断 电 ， 驱 动 器 也 能 持久 存储 数据 位 。 


所 有 盘 片 都 围绕 主轴 〈spindle) 连接 在 一 起 ， 主 轴 连 接 到 一 个 电机 ， 

以 一 个 恒定 (固定 ) 的 速度 旋转 盘 片 〈 当 驱动 器 接 通电 源 时 ) 。 旋 转 

速率 通常 以 每 分 钟 转 数 (Rotations Per Minute，RPM) 来 测量 ， 暴 型 

的 现代 数值 在 7200 一 15000 RPM 范围 内 。 请 注意 ， 我 们 经 常会 对 单 次 旋 

ee 例如 ， 以 10000 RPM 旋转 的 驱动 器 意味 着 一 次 旋转 需 
约 6ms 。 


数据 在 扇 区 的 同心 圆 中 的 每 个 表面 上 被 编码 。 我 们 称 这 样 的 同心 圆 为 
一 个 磁道 (track〉 。 一 个 表面 包含 数 以 干 计 的 磁道 ， 紧 密 地 排 在 一 
起 ， 数 百 个 磁道 只 有 头发 的 宽度 。 


要 从 表面 进行 读 写 操作 ， 我 们 需要 一 种 机 制 ， 使 我 们 能 够 感应 《〈 即 读 
取 ) 磁盘 上 的 磁性 图 案 ， 或 者 让 它们 发 生变 化 《〈 即 写 入 ) 。 读 写 过 程 
由 磁头 〈disk head) 完成 ; 驱动 器 的 每 个 表面 有 一 个 这 样 的 磁头 。 磁 
头 连接 到 单个 磁盘 臂 (disk arm) 上 ， 人 磁盘 辟 在 表面 上 移动 ， 将 磁头 
定位 在 期 望 的 磁道 上 。 











37.3 简单 的 磁盘 驱动 器 


让 我 们 每 次 构建 一 个 磁道 的 模型 ， 来 了 解 磁盘 是 如 何 工 作 的 。 假 设 我 
们 有 一 个 单一 磁道 的 简单 磁盘 〈 见 图 37. 1) 。 


该 磁道 只 有 12 个 扇 区 ， 每 个 扇 区 的 大 小 为 512 字 节 〈 典 型 的 扇 区 大 小 ， 
回忆 一 下 〉， 因 此 用 0 到 11 的 数字 表示 。 这 里 的 单个 盘 片 围绕 主轴 旋 
转 ， 电 机 连接 到 主轴 。 当 然 ， 磁 道 本 身 并 不 太 有 趣 ， 我 们 希望 能 够 读 
取 或 写 入 这 些 扇 区 ， 因 此 需要 一 个 连接 到 磁盘 臂 上 的 磁头 ， 如 我 们 现 
在 所 见 〈 见 图 37.2) 。 

















图 37.1 只 有 单一 磁道 的 磁盘 


朝 这 个 方 回旋 转 









6 
雪 
外 


在 图 37. 2 中， 连接 到 磁盘 辟 末 端的 磁头 位 于 局 形 部 分 6 的 上 方 ， 磁 盘 表 
面 逆 时 针 旋 转 。 


A 








图 37. 2 单 磁 道 加 磁头 














单 磁 道 延 迟 : 旋转 延迟 


要 理解 如 何在 简单 的 单 道 磁 盘 上 处 理 请 求 ， 请 想象 我 们 现在 收 到 读 取 
块 0 的 请 求 。 人 磁盘 应 如 何 处 理 该 请 求 ? 


在 我 们 的 简单 磁盘 中 ， 和 磁盘 不 必 做 太 多 工作 。 有 具体 来 说 ， 它 必须 等 待 
期 望 的 局 区 旋转 到 磁头 下 。 这 种 等 得 在 现代 驱动 器 中 经 常 发 生 ， 并 且 
是 IZ0 服 务 时 间 的 重要 组 成 部 分 ， 它 有 一 个 特殊 的 名 称 : 旋转 延迟 
(rotational delay， 有 时 称 为 fotation delay， 尽 管 听 起 来 很 奇 
怪 ) 。 在 这 个 例子 中 ， 如 果 完 整 的 旋转 延迟 是 尼 那么 磁盘 必然 产生 大 
约 为 RM2 的 旋转 延迟 ， 以 等 竺 0 来 到 读 / 写 磁头 下 面 ( 如 果 我 们 从 6 开 














始 ) 。 对 这 个 单一 磁道 ， 了 最 坏 情况 的 请 求 是 第 5 局 区 ， 这 导致 接近 完整 
的 旋转 延迟 ， 才 能 服务 这 种 请 求 。 


多 磁道 : 寻 道 时 间 


到 目前 为 目 ， 我 们 的 磁盘 只 有 一 条 磁道 ， 这 是 不 太 现 实 的 。 现 代 磁 盘 
当然 有 数 以 百 万 计 的 磁道 。 因 此 ， 我 们 来 看 看 更 具 现 实感 的 磁盘 表 
面 ， 这 个 表面 有 3 条 磁道 〈《 见 图 37. 3 左 图 ) 。 


在 该 图 中 ， 破 头 当前 位 于 最 内 图 的 磁道 上 《〈 它 包含 户 区 24 一 35) 。 下 
一 个 磁道 包含 下 一 组 扇 区 (12 一 23) ， 最 外 面 的 磁道 包含 最 前 面 的 扇 
区 (0~11) 。 














明 这 个 方向 训 转 朝 这 个 方向 施 轩 








图 37. 3 ”3 条 磁道 加 上 一 个 磁头 〈 右 : 带 寻 道 ) 


为 了 理解 丝 动 器 如 何 访问 给 定 的 扇 区 ， 我 们 现在 人 退 踩 请 求 发 生 在 远 处 
而 区 的 情况 ， 例如 ， 读 取 肩 区 11。 为 了 服务 这 个 读 取 请 求 ， 驱 动 器 必 
须 首 先 将 磁盘 臂 移动 到 正确 的 磁道 《在 这 种 情况 下 ， 是 最 外 面 的 磁 
道 ) ， 通 过 一 个 所 谓 的 寻 道 (seek) 过 程 。 寻 道 ， 以 及 旋转 ， 是 最 昂 
贵 的 磁盘 操作 之 一 。 


应 该 指出 的 是 ， 寻 道 有 许多 阶段 : 首先 是 磁盘 臂 移 动 时 的 加 速 阶段 。 
然后 随 独 磁盘 臂 全 速 移动 而 惯性 滑动 。 然 后 随 痢 磁盘 臂 减 速 而 减速 。 
最 后 ， 在 磁头 小 心地 放置 在 正确 的 磁道 上 时 停 下 来 。 停 放 时 间 
(settling time) 通常 不 小 ， 例 如 0. 5 一 2ms， 因 为 驱动 器 必须 确定 找 
到 正确 的 磁道 (想象 一 下 ， 如 果 它 只 是 移 到 附近 ! ) 


寻 道 之 后 ， 磁 盘 臂 将 磁头 定位 在 正确 的 磁道 上 。 图 37.3《〈 右 图 ) 描述 
了 寻 道 。 


如 你 所 见 ， 在 寻 道 过 程 中 ， 磁 盘 臂 已 经 移动 到 所 需 的 磁道 上 ， 并 且 盘 
片 当然 已 经 开始 旋转 ， 在 这 个 例子 中 ， 大 约 旋转 了 3 个 忆 区 。 因 此 ， 局 
0 
从 。 

当 忆 区 11 经 过 磁盘 磁头 时 ，IZ0 的 最 后 阶段 将 发 生 ， 称 为 传输 


(transfer) ， 数 据 从 表面 读 取 或 写 入 表面 。 因 此 ， 我 们 得 到 了 完整 
的 IZ0 时 间 图 : 首先 寻 道 ， 然 后 等 待 转动 延迟 ， 最 后 传输 。 









































一 些 其 他 细节 





尽管 我 们 不 会 花费 太 多 时 间 ， 但 还 有 一 些 关 于 人 磁盘 驱动 器 操作 的 信人 
感 兴趣 的 细 市 。 许 多 驱动 器 采用 杂种 形式 的 磁道 偏 斜 (track 
skew) ， 以 确保 即使 在 跨越 磁道 边界 时 ， 顺 序 读 取 也 可 以 方便 地 服 
务 。 在 我 们 的 简单 示例 磁盘 中 ， 这 可 能 看 起 来 如 图 37. 4 所 示 。 


旋 区 往往 会 仿 料 ， 因 为 从 一 个 磁道 切换 到 另 一 个 磁道 时 ， 磁 盘 需 要 时 
间 来 重新 定位 磁头 〈 即 便 移 到 相 邻 磁道 ) 。 如 果 没 有 这 种 偏 斜 ， 磁 头 











将 移动 到 下 一 个 磁道 ， 但 所 需 的 下 一 个 块 已 经 旋转 到 磁头 下 ， 因 此 了 驱 
动 右 将 不 得 不 等 待 整 个 旋转 延迟 ， 才 能 访问 下 一 个 块 。 





用 这 个 方 回 旋转 





© 磁道 懈 斜 : 2 抉 


图 37. 4 3 条 磁道 : 磁道 偏 斜 为 2 


另 一 个 事实 是 ， 外 圈 磁 道 通常 比 内 圈 磁 道具 有 更 多 鹿 区 ， 这 是 几何 结 
构 的 结果 。 那 里 空间 更 多 。 这 些 磁道 通常 被 称 为 多 区 域 (multi- 











zoned) 磁盘 张 动 器 ， 其 中 磁盘 被 组 织 成 多 个 区 域 ， 区 域 是 表面 上 连续 
的 一 组 磁道 。 每 个 区 域 每 个 磁道 具有 相同 的 局 区 数量 ， 并 且 外 圈 区 域 
上 共有 比 内 圈 区 域 更 多 的 山区 。 


最 后 ， 任 何 现代 磁盘 驱动 器 都 有 一 个 重要 组 成 部 分 ， 即 它 的 缓存 
(cache) ， 由 于 历史 原因 有 时 称 为 磁道 缓冲 区 (track buffer) 。 访 
缓存 只 是 少量 的 内 存 (通常 大 约 8MB 或 16MB)〉 ， 了 驱动 器 可 以 使 用 这 些 内 
存 来 保存 从 磁盘 读 取 或 写 入 厂 盘 的 数据 。 例 如 ， 当 从 磁盘 读 取 扇 区 
时 ， 驱 动 器 可 能 决定 读 取 该 磁道 上 的 所 有 扇 区 并 将 其 缓存 在 其 存储 器 
中 。 这 样 做 可 以 让 驱动 右 快 速 啊 应 所 有 后 续 对 同一 人 磁道 的 请 求 。 


在 写 入 时 ， 了 驱动 器 面临 一 个 选择 : 它 应 该 在 将 数据 放 入 其 内 存 之 后 ， 
还 是 写 入 实际 写 入 磁盘 之 后 ， 回 报 写 入 完成 ? 前 者 被 称 为 后 写 (write 
back) 绥 存 〈《 有 时 称 为 立即 报告 ，immediate reporting) ， 后 者 则 称 
为 直 写 (write through) 。 后 写 缓存 有 时 会 使 驱动 器 看 起 来 “更 
快 ”， 但 可 能 有 危险。 如 果 文 件 系统 或 应 用 程序 要 求 将 数据 按 特定 顺 
序 写 入 人 磁盘 以 保证 正确 性 ， 后 写 缓存 可 能 会 导致 问题 (请 阅读 文件 系 
统 日 志 的 章节 以 了 解 详细 信息 ) 。 


























补充 量 纲 分 析 


回忆 一 下 在 化 学 课 上 ， 你 如 何 通 过 简单 地 选择 单位 ， 从 而 消 
掉 这 些 单位 ， 结 果 答 案 就 跳出 来 了 。 这 几乎 能 解决 所 有 问 
题 。 这 种 化 学 魔法 有 一 个 高 大 上 的 名 字 ， 即 量 纲 分 析 
(dimensional analysis) ， 事 实证 明 ， 它 在 计算 机 系统 分 
析 中 也 很 有 用 。 


让 我 们 举 个 例子 ， 看 看 量 纲 分 析 是 如 何 工作 的 ， 以 及 它 为 什 
么 有 用 。 在 这 个 例子 中 ， 假 设 你 必须 计算 磁盘 旋转 一 周 所 需 
的 时 间 〈 以 ms 为 单位 ) 。 遗 憾 的 是 ， 你 只 能 得 到 磁盘 的 RPM， 
或 每 分 钟 的 旋转 次 数 (rotations per minute) 。 假 设 我 们 
正在 谈论 一 个 1OK RPM 磁盘 “〈 每 分 钟 旋转 10000 次 ) 。 如 何 通 
过 量 纲 分 析 ， 得 到 以 训 秒 为 单位 的 每 转 时 间 ? 


要 做 到 这 一 点 ， 我 们 先 将 所 需 单位 置 于 磊 侧 。 在 这 个 例子 
中 ， 我 们 希望 获得 每 次 旋转 所 需 的 时 间 〈 以 曼 秒 为 单位 ) ， 











时 日 ims) 
所 以 我 们 就 写 下 区 局 。 然 后 写 下 我 们 所 知道 的 一 切 ， 确 保 
lmin 
在 可 能 的 情况 下 消 掉 单位 。 首 先 ， 我 们 得 到 Is 《将 旋转 
保持 在 分 母 ， 因 为 左 侧 它 也 在 分 母 )》 ， 然 后 用 ss 将 分 钟 转换 
成 秒 ， 然 后 用 “将 秒 转换 成 毫秒 。 最 终结 果 如 下 (单位 很 
好 地 消 掉 了 ) : 


时 间 (ms) ”lmin 60s 1000ms 60000ms éms 


Ii 转 10000 转 Imin ” 1 ”10000 转 八 





从 这 个 例子 中 可 以 看 出 ， 量 纲 分 析 使 得 一 个 简单 而 可 重复 的 
过 程 变 得 很 明显 。 除了 上 面 的 RPM 计算 之 外 ， 它 也 经 常用 于 
I[0 分 析 。 例 如 ， 经 常会 给 你 磁盘 的 传输 速率 ， 例 如 
100MB/s， 然 后 问 : 传输 512KB 数 据 块 需要 多 长 时 间 《〈 以 ms 为 
单位 ) ? 利用 量 纲 分 析 ， 这 很 容易 : 


时 间 (ms) 512KB IMB ls i000ms 5ms 


1 六 证 玉 过 二 102B 100NB 秒 ” 沈 丁 











从 这 个 例子 中 可 以 看 出 ， 量 纲 分 析 使 得 一 个 简单 而 可 重复 的 
过 程 变 得 很 明显 。 除 了 上 面 的 RPM 计 算 之 外 ， 它 也 经 常用 于 
I/0 分 析 。 例 如 ， 经 常会 给 你 人 磁盘 的 传输 速率 ， 例 如 
100MB/s， 然 后 问 : 传输 512KB 数 据 块 需要 多 长 时 间 (以 ms 为 
单位 ) ? 利用 量 纲 分 析 ， 这 很 容易 。 








37.4 I/0 时 间 : 用 数学 


既然 我 们 有 了 一 个 抽象 的 磁盘 模型 ， 就 可 以 通过 一 些 分 析 来 更 好 地 理 
解 磁 盘 性 能 。 具 体 来 说 ， 现 在 可 以 将 I/0 时 间 表 示 为 3 个 主要 部 分 之 
和 : 


To = ?部 首 7 让 天 + 7f 痊 (37.1) 


请 注意 ， 通 常 比较 驱动 器 用 1/0 速 率 ( Rjjy) 更 容易 《如 下 所 示 )， 它 
很 容易 从 时 间 计 算出 来 。 只 要 将 传输 的 大 小 除 以 所 花 的 时 间 : 





Tio CIT 2 


为 了 更 好 地 感受 1/0 时 间 ， 我 们 执行 以 下 计算 。 假 设 有 两 个 我 们 感 兴趣 
的 工作 负载 。 第 一 个 工作 负载 称 为 随机 (random〉 工 作 负 载 ， 它 向 磁 
盘 上 的 随机 位 置 发 出 小 的 (例如 4KB〉 读 取 请 求 。 随 机 工作 负载 在 许多 
重要 的 应 用 程序 中 很 常见 ， 包 括 数据 库 管 理 系统 。 第 二 种 称 为 顺序 
Csequential) 工作 负载 ， 只 是 从 磁盘 连续 读 取 大 量 的 扇 区 ， 不 会 跳 
过 。 顺 序 访问 模式 很 常见 ， 因 此 也 很 重要 。 


为 了 理解 随机 和 顺序 工作 负载 之 间 的 性 能 差异 ， 我 们 首先 需要 对 磁盘 
驱动 器 做 一 些 假 设 。 我 们 来 看 看 希捷 的 几 个 现代 磁盘 。 第 一 个 名 为 
Cheetah 15K.5 [S09b]， 是 高 性 能 SCSI 驱 动 器 。 第 二 个 名 为 Barracuda 
[S09a]， 是 一 个 为 容量 而 生 的 驱动 器 。 有 关 两 者 的 详细 信息 如 表 37. 1 
所 示 。 

如 你 所 见 ， 这 些 驱 动 器 具有 完全 不 同 的 特性 ， 并 且 从 很 多 方面 很 好 地 
总 结 了 人 磁盘 驱动 器 市 场 的 两 个 重要 部 分 。 首 先是 “高 性 能 ”驱动 器 市 
场 ， 驱 动 器 的 设计 尽 可 能 快 ， 提 供 低 寻 道 时 间 ， 并 快速 传输 数据 。 其 
次 是 “容量 ”市 场 ， 每 字 节 成 本 是 最 重要 的 方面 。 因 此 ， 了 驱动 器 速度 
较 慢 ， 但 将 尽 可 能 多 的 数据 放 到 可 用 空间 中 。 


表 37. 1 磁盘 驱动 器 规格 : SCSI 与 SATA 


bccn ts hero 
容量 300GB 用 
平均 寻 道 时 间 i 

最 大 传输 速度 i S 
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砚 盘 ,| 
组 在 i 
连接 方式 se 


根据 这 些 数据 ， 我 们 可 以 开始 计算 驱动 器 在 上 述 两 个 工作 负载 下 的 性 
能 。 我 们 先 看 看 随机 工作 负载 。 假 设 每 次 读 取 4KB 发 生 在 磁盘 的 随机 位 
置 ， 我 们 可 以 计算 每 次 读 取 需要 多 长 时 间 。 在 Cheetah 上 : 














7 闻 症 4ms，7jé 大 一 2mS， 7 办 = 30ms (37.3) 


提示 : 顺序 地 使 用 磁盘 


尽 可 能 以 顺序 方式 将 数据 传输 到 磁盘 ， 并 从 磁盘 传输 数据 。 
如 果 顺 序 不 可 行 ， 至 少 应 考虑 以 大 块 传输 数据 : 越 大 越 好 。 
如 果 I/0 是 以 小 而 随机 方式 完成 的 ， 则 1/0 性 能 将 受到 显著 影 
啊 。 而 且 ， 用 户 也 会 痛 苗 。 而 且 ， 你 也 会 痛 盏 ， 因 为 你 知道 
正 是 你 不 小 心 的 随机 1/0 让 你 痛 否 。 











平均 寻 道 时 间 (4ms) 就 采用 制造 商 报告 的 平均 时 间 。 请 注意 ， 完 全 寻 
道 〈 从 表面 的 一 端 到 另 一 端 ) 可 能 需要 两 到 三 倍 的 时 间 。 平 均 旋 转 延 
迟 直接 根据 RPM 计算 。15000 RPM 等 于 250 RPS 〈 每 秒 转速 ) 。 因 此 ， 
次 旋转 需要 4ms。 平 均 而 言 ， 磁 盘 将 会 遇 到 半 圈 旋转 ， 因 此 平均 时 间 为 
2ms。 最 后 ， 传 输 时 间 就 是 传输 大 小 除 以 峰值 传输 速率 。 在 这 里 它 小 得 
几乎 看 不 见 〈30ns， 注 意 ， 需 要 1000 un s 才 是 lms! ) 。 


因此 ， 根 据 我 们 上 面 的 公式 ，Cheetah 的 六 大致 等 于 6ms。 为 了 计算 
I/0 的 速率 ， 我 们 只 需 将 传输 的 大 小 除 以 平均 时 间 ， 因 此 得 到 Cheetah 
在 随机 工作 负载 下 的 大约 是 0. 66MB/s。 对 Barracuda 进 行 同样 的 计 
算 ， 得 到 7jj 约 为 13. 2ms， 慢 两 倍 多 ， 因 此 速率 约 为 0. 31MB/s。 











现在 让 我 们 看 看 顺序 工作 负载 。 在 这 里 我 们 可 以 假定 在 一 次 很 长 的 传 
输 之 前 只 有 一 次 寻 道 和 旋转 。 简 单 起 见 ， 假 设 传输 的 大 小 为 100MB。 
此 ，Barracuda 和 Cheetah 的 六 了 分 别 约 为 800ms 和 950ms。 因 此 IZ0 的 速 
率 几 乎 接近 125MB/s 和 105MB/s 的 峰值 传输 速率 ， 如 表 37. 2 所 示 。 

表 37. 2 展示 了 一 些 重要 的 事情 。 第 一 点 ， 也 是 最 重要 的 一 点 ， 随 机 和 
顺序 工作 负载 之 间 的 驱动 性 能 差距 很 大 ， 对 于 Cheetah 来 说 几乎 是 200 
左右 ， 而 对 于 Barracuda 来 说 差不多 是 300 倍 。 因 此 我 们 得 出 了 计算 历 
史上 最 明显 的 设计 提示 。 

第 二 点 更 微妙 : 高 端 “性 能 ”驱动 器 与 低 端 “容量 ”驱动 器 之 间 的 性 
能 差异 很 大 。 出 于 这 个 原因 〈 和 其 他 原因 ) ， 人 们 往往 愿意 为 前 者 文 
付 最 高 的 价格 ， 同 时 尽 可 能 便宜 地 获得 后 者 。 


表 37. 2 磁盘 驱动 器 性 能 : SCSI 与 SATA 


i Barracuda 
R i 随机 ||0. 66MB/s 0. 31MB/s 




















R ,ji 顺序 |125MB/s 105MB/s 








补充 : 计算 “平均 ” 寻 道 时 间 


在 许多 书籍 和 论文 中 ， 引 用 的 平均 磁盘 寻 道 时 间 大 约 为 完整 
寻 道 时 间 的 三 分 之 一 。 这 是 怎么 来 的 ? 


原来 ， 它 是 基于 平均 寻 道 距离 而 不 是 时 间 的 简单 计算 而 产生 
的 。 将 磁盘 想象 成 一 组 从 0 到 /的 磁道 。 因 此 任何 两 个 磁道 z 和 
J 之 间 的 寻 道 距离 计算 为 它们 之 间 差 值 的 绝对 值 : | x 一 y 
区 























只 需 首先 将 所 有 可 能 的 搜索 距离 相 加 
1 可 : 





(37. 4) 

然后 ， 将 其 除 以 不 同 可 能 的 搜索 次 数 : WV?。 为 了 计算 总 和 ， 
我 们 将 使 用 积分 形式 : 

Lb re (37.5) 

为 了 计算 内 层 积 分 ， 我 们 分 离 绝 对 值 : 


Px-Wdy+ 所 -dy 


(37.6) 
求解 它 得 到 Wb" 
在 我 们 必须 计算 外 层 积分 : 








Eo dy: | 


NM 
* ， 这 可 以 简化 为 现 


~ (x?-Nx+:N?)dx 
fol NtiN ee 7.7) 


这 得 到 : 








记 住 ， 我 们 仍然 必须 除 以 寻 道 总 数 〈M2) 来 计算 平均 寻 道 距 
离 ， (WB/3) / (WE) = M3。 因 此 ， 在 所 有 可 能 的 寻 道中 ， 磁 
盘 上 的 平均 寻 道 距离 是 全 部 距离 的 1/3。 现 在 ， 如 果 听 到 平均 
寻 道 时 间 是 完整 寻 道 时 间 的 1/3， 你 就 会 知道 是 怎么 来 的 。 

















37.5 磁盘 调度 


由 于 IZ0 的 高 成 本 ， 操 作 系 统 在 决定 发 送 给 磁盘 的 IZ0 顺 序 方面 历来 发 
挥 作用 。 更 具体 地 说 ， 给 定 一 组 I/0 请 求 ， 磁 盘 调度 程序 检查 请 求 并 决 
定 下 一 个 要 调度 的 请 求 LSC090，JW91j。 


与 任务 调度 不 同 ， 每 个 任务 的 长 度 通 和 常 是 不 知道 的 ， 对 于 磁盘 调度 ， 
我 们 可 以 很 好 地 猜测 “任务 ”《【〈 即 磁盘 请 求 ) 需要 多 长 时 间 。 通 过 估 
计 请 求 的 查找 和 可 能 的 旋转 延迟 ， 磁 盘 调 度 程序 可 以 知道 每 个 请 求 将 
花费 多 长 时 间 ， 因 此 《 贪 禁 地 ) 选择 先 服务 花费 最 少时 间 的 请 求 。 因 
此 ， 磁 盘 调 度 程序 将 尝试 在 其 操作 中 遵循 SJFE《〈 最 短 任务 优先 ) 的 原则 
(principle of SJF, shortest job first) 。 











SSTF: 最 短 寻 道 时 间 优 先 





一 种 早期 的 磁盘 调度 方法 被 称 为 最 短 寻 道 时 间 优 先 (Shortest-Seek- 
Time-First，SSTF) (也 称 为 最 短 寻 道 优 先 ，Shortest-Seek-First， 
SSF) 。SSTF 按 磁道 对 1/0 请 求 队列 排序 ， 选 择 在 最 近 磁 道上 的 请 求 先 
完成 。 例 如 ， 假 设 人 磁头 当前 位 置 在 内 圈 磁 道上 ， 并 且 我 们 请 求 悄 区 
21 〈 中 间 磁 道 ) 和 2 外 圈 磁 道 ) ， 那 么 我 们 会 首先 发 出 对 21 的 请 求 ， 
等 待 它 完成 ， 然 后 发 出 对 2 的 请 求 〈 见 图 37.5) 。 


站 


参 这 个 方 问 诞 我 
一 





图 37.5 SSTF: 调度 请 求 21 和 2 


在 这 个 例子 中 ，SSTF 运 作 良 好 ， 首 先 寻 找 中 间 磁 道 ， 然 后 寻找 外 圈 磁 
道 。 但 SSTF 不 是 万 能 的 ， 原 因 如 下 。 第 一 个 问题 ， 主 机 操作 系统 无 法 
利用 驱动 器 的 几何 结构 ， 而 是 只 会 看 到 一 系列 的 块 。 幸 运 的 是 ， 这 个 
问题 很 容易 解决 。 操 作 系 统 可 以 简单 地 实现 最 近 块 优先 (Nearest- 
Block-First，NBF) ， 而 不 是 SSTF， 然 后 用 最 近 的 块 地 址 来 调度 请 
水 





第 二 个 问题 更 为 根本 : 饥 饭 (starvation) 。 想 象 一 下 ， 在 我 们 上 面 
的 例子 中 ， 是 否 有 对 磁头 当前 所 在 位 置 的 内 图 磁道 有 稳定 的 请 求 。 然 
后 ， 纯 粹 的 SSTF 方 法 将 完全 忽略 对 其 他 磁道 的 请 求 。 因 此 关键 问题 如 
Ts 











关键 问题 : 如 何 处 理 磁盘 饥 钱 


我 们 如 何 实现 类 SSTF 调 度 ， 但 避免 饥饿 ? 


电梯 (又 称 SCAN 或 C-SCAN) 


这 个 问题 的 答案 是 很 久 以 前 得 到 的 (参见 [CKR72] 中 的 例子 )， 并 且 相 
对 比较 简单 。 该 算法 最 初 称 为 SCAN， 简 单 地 以 跨越 磁道 的 顺序 来 服务 
磁盘 请 求 。 我 们 将 一 次 跨越 磁盘 称 为 扫 一 过 。 因 此 ， 如 果 请 求 的 块 所 
属 的 磁道 在 这 次 扫 一 遍 中 已 经 服务 过 了 ， 它 就 不 会 立即 处 理 ， 而 是 排 
队 等 竺 下 次 扫 一 过 。 


SCAN 有 许多 变种 ， 所 有 这 些 变种 都 是 一 样 的 。 例 如 ，Coffman 等 人 引入 
了 F-SCAN， 它 在 扫 一 遍 时 冻结 队列 以 进行 维护 [LCKR72] 。 这 个 操作 会 将 
扫 一 遍 期 间 进 入 的 请 求 放 入 队列 中 ， 以 便 稍 后 处 理 。 这 样 做 可 以 避免 
远 距 离 请 求 饥 猴 ， 延 迟 了 迟到 “但 更 近 ) 请 求 的 服务 。 


C-SCAN 是 男 一 种 常见 的 变 体 ， 即 循环 SCAN (Circular SCAN) 的 缩写 。 
不 是 在 一 个 方 同 扫 过 磁盘 ， 该 算法 从 外 圈 扫 到 内 轿 ， 然 后 从 内 圈 扫 到 
外 圈 ， 如 此 下 去 。 


由 于 现在 应 该 很 明显 的 原因 ， 这 种 算法 (及 其 变种 ) 有 时 被 称 为 电梯 
(elevator ) 算法 ， 因 为 它 的 行为 像 电 梯 ， 电 梯 要 么 同上 要 么 问 下 ， 
而 不 只 根据 哪 层 楼 更 近来 服务 请 求 。 试 想 一 下 ， 如 果 你 从 10 楼 下 降 到 1 
楼 ， 有 人 在 3 楼 上 来 并 按 下 4 楼 ， 那 么 电梯 就 会 上 升 到 4 楼 ， 因 为 它 比 1 
楼 更 近 ! 如 你 所 见 ， 电 梯 算 法 在 现实 生活 中 使 用 时 ， 可 以 防止 电梯 中 
发 生 战 斗 。 在 磁盘 中 ， 它 就 防止 了 饥 饼 。 























然而 ，SCAN 及 其 变种 并 不 是 最 好 的 调度 技术 。 特 别 是 ，SCAN (甚至 
SSTF) 实际 上 并 没有 严格 遵守 SJF 的 原则 。 具 体 来 说 ， 它 们 忽视 了 旋 
转 。 因 此 ， 另 一 个 关键 问题 如 下 。 


关键 问题 : 如 何 计算 磁盘 旋转 开销 
如 何 同时 考虑 寻 道 和 旋转 ， 实 现 更 接近 SJF 的 算法 ? 


SPTF: 最 短 定 位 时 间 优 先 


在 讨论 最 短 定 位 时 间 优 先 调度 之 前 〈Shortest Positioning Time 
First，SPTF， 有 时 也 称 为 最 短 接 入 时 间 人 优先 ，Shortest Access Time 
First，SATF。 这 是 解决 我 们 问题 的 方法 ) ， 让 我 们 确保 更 详细 地 了 解 
问题 。 图 37. 6 给 出 了 一 个 例子 。 


朝 这 个 方向 旋转 








图 37.6 SSTF: 有 时 候 不 够 好 


在 这 个 例子 中 ， 磁 类 当前 定位 在 内 圈 磁 道上 的 而 区 30 上 方 。 因 此 ， 调 
度 程序 必须 决定 : 下 一 个 请 求 应 该 为 安排 届 区 16 在 中 间 磁 道上 〉 还 
是 局 区 8 在 外 圈 磁 道上 〉 。 接 下 来 应 该 服务 哪个 请 求 ? 

答案 当然 是 “ 视 情况 而 定 ”。 在 工程 中 ， 事 实证 明 “ 视 情况 而 定 ” 几 
乎 总 是 答案 ， 这 反映 了 取舍 是 工程 师 生活 的 一 部 分 。 这 样 的 格言 也 很 


人 三 从 有 示 ， 














好 ， 例 如 ， 妆 你 不 知道 老板 问题 的 答案 时 ， 也 许可 以 试 试 这 句 好话 。 


这 里 的 情况 是 旋转 与 寻 道 相 比 的 相对 时 间 。 如 果 在 我 们 的 例子 中 ， 寻 
道 时 间 远 远 高 于 旋转 延迟 ， 那 么 SSTF 〈 和 变 体 ) 就 好 了 。 但 是 ， 想 象 
一 下 ， 如 果 寻 道 比 旋转 快 得 多 。 然 后 ， 在 我 们 的 例子 中 ， 寻 道 远 一 点 
的 、 在 外 圈 磁 道 的 服务 请 求 8， 比 寻 道 近 一 点 的 、 在 中 间 磁 道 的 服务 请 
求 16 更 好 ， 后 者 必须 旋转 很 长 的 距离 才能 移 到 磁头 下 。 


在 现代 驱动 器 中 ， 正 如 上 面 所 看 到 的 ， 查 找 和 旋转 大 致 相当 《当然 ， 
视 具 体 的 请 求 而 定 ) ， 因 此 SPTF 是 有 用 的 ， 它 提高 了 性 能 。 然 而 ， 它 
在 操作 系统 中 实现 起 来 更 加 困难 ， 操 作 系 统 通常 不 太 清楚 磁道 边界 在 
哪 ， 也 不 知道 磁头 当前 的 位 置 《旋转 到 了 哪里 ) 。 因 此 ，SPTF 通 常 在 
驱动 硕 内 部 执行 ， 如 下 所 述 。 





提示 : 总 是 视 情况 而 定 (LIVNY 定 律 ) 


正如 我 们 的 同事 Miron Livny 总 是 说 的 那样 ， 几 乎 任何 问题 都 
可 以 用 “ 视 情况 而 定 ” 来 回答 。 但 是 ， 要 谨慎 使 用 ， 因 为 如 
果 你 以 这 种 方式 回答 太 多 问题 ， 人 们 就 不 会 再 问 你 问题 。 例 
如 ， 有 人 间 : “ 想 去 吃 午饭 吗 ? ”你 回答 : “ 视 情况 而 定 。 
你 是 一 个 人 来 咏 ?” 





其 他 调度 问题 





在 这 个 基本 磁盘 操作 ， 调 度 和 相关 主题 的 简要 描述 中 ， 还 有 很 多 问题 
我 们 没有 讨论 。 其 中 一 个 问题 是 : 在 现代 系统 上 执行 磁盘 调度 的 地 方 
在 哪里 ? 在 较 早 的 系统 中 ， 操 作 系统 完成 了 所 有 的 调度 。 在 查看 一 系 
列 挂 起 的 请 求 之 后 ， 操 作 系 统 会 选择 最 好 的 一 个 ， 并 将 其 发 送 到 磁 
盘 。 当 该 请 求 完 成 时 ， 将 选择 下 一 个 ， 如 此 下 去 。 磁 盘 当年 比较 简 
单 ， 生 活 也 是 。 














在 现代 系统 中 ， 磁 各 可 以 接受 多 个 分 离 的 请 求 ， 它 们 本 身 具 有 复杂 的 
内 部 调度 程序 〈 它 们 可 以 准确 地 实现 SPTF。 在 磁盘 控制 器 内 部 ， 所 有 
相关 细节 都 可 以 得 到 ， 包 括 精 确 的 磁头 位 置 ) 。 因 此 ， 操 作 系 统 调度 
程序 通常 会 选择 它 认 为 最 好 的 几 个 请 求 (如 16) ， 并 将 它们 全 部 发 送 
到 磁盘 。 磁 盘 然后 利用 其 磁头 位 置 和 详细 的 磁道 布局 信息 等 内 部 知 
识 ， 以 最 佳 可 能 (SPTF) 顺序 服务 于 这 些 请 求 。 


磁盘 调度 程序 执行 的 另 一 个 重要 相关 任务 是 I/0 合 并 (I/0 
merging) 。 例 如 ， 设 想 一 系列 请 求 读 取 块 33， 然 后 是 8， 然 后 是 34， 
如 图 37. 8 所 示 。 在 这 种 情况 下 ， 调 度 程序 应 该 将 块 33 和 34 的 请 求 合 并 
(merge ) 为 单个 两 块 请 求 。 调 度 程 序 执行 的 所 有 请 求 都 基于 合并 后 的 
请 求 。 合 并 在 操作 系统 级 别 尤 其 重要 ， 因 为 它 减 少 了 发 送 到 磁盘 的 请 
求 数量 ， 从 而 降低 了 开销 。 


现代 调度 程序 关注 的 最 后 一 个 问题 是 : 在 同人 磁 税 发 出 1/0 之 前 ， 系 统 应 
该 等 得 多 久 ? 有 人 可 能 天 真 地 认为 ， 即 使 有 一 个 人 磁盘 I/0， 也 应 立即 问 
驱动 器 发 出 请 求 。 这 种 方法 被 称 为 工作 保全 (work-conserving) ， 因 
为 如 果 有 请 求 要 服务 ， 磁 盘 将 永远 不 会 闲 下 来 。 然 而 ， 对 预期 磁盘 调 
度 的 研究 表明 ， 有 时 最 好 等 待 一 段 时 间 [ID01] ， 即 所 谓 的 非 工 作 保 全 
(non-work-conserving) 方法 。 通 过 等 待 ， 新 的 和 “更 好 ”的 请 求 可 
能 会 到 达 磁 盘 ， 从 而 整体 效率 提高 。 当 然 ， 决 定 何 时 等 待 以 及 多 久 可 
能 会 非常 棘手 。 请 参阅 研究 论文 以 了 解 详细 信息 ， 或 查看 Linux 内 核实 
现 ， 以 了 解 这 些 想法 如 何 转化 为 实践 〈 如 果 你 对 自己 要 求 很 高 ) 。 





























37.6 小 结 


我 们 已 经 展示 了 磁盘 如 何 工 作 的 概述 。 概 述 实际 上 是 一 个 详细 的 功能 
模型 。 它 没有 描述 实际 驱动 器 设计 涉及 的 惊人 的 物理 、 电 子 和 材料 科 
学 。 对 于 那些 对 更 多 这 类 细节 感 兴趣 的 人 ， 我 们 建议 换 一 个 主 修 专业 
《或 辅修 专业 ) 。 对 于 那些 对 这 个 模型 感到 满意 的 人 ， 很 好 ! 我 们 现 
0 
色 虹 系统。 
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作业 


本 作业 使 用 disk. py 来 帮助 读者 熟悉 现代 磁盘 的 工作 原理 。 它 有 很 多 不 
同 的 选项 ， 与 大 多 数 其 他 模拟 不 同 ， 它 有 图 形 动画 ， 可 以 准确 显示 磁 
盘 运 行 时 发 生 的 情况 。 详 情 请 参阅 README 文 件 。 


问题 


1. 计算 以 下 几 组 请 求 的 寻 道 、 旋 转 和 传输 时 间 : -a 0，-a 6，-a 
30， -a {3 30， 8， 最 后 -a 10， 1 |， 12， 13:s 


2. 执行 上 述 相 同 请 求 ， 但 将 寻 道 速率 更 改 为 不 同 值 : -S 2，-S 4，-S 
8，-S 10，-S 40，-S 0.1。 时 代 如 何 变化 ? 


3. 同样 的 请 求 ， 但 改变 旋转 速率 : -R 0.1，-R 0.5，-R 0.01。 时 间 
如 何 变 化 ? 


4. 你 可 能 已 经 注意 到 ， 对 于 一 些 请 求 流 ， 一 些 策略 比 FIF0 更 好 。 例 
如 ， 对 于 请 求 流 -a 7，30，8， 处 理 请 求 的 顺序 是 什么 ? 现在 在 相同 的 
工作 负载 上 运行 最 短 寻 道 时 间 优 先 〈SSTF) 调度 程序 (-p SSTF) 。 
个 请 求 服务 需要 多 长 时 间 ( 寻 道 、 旋 转 、 传 输 ) ? 


5. 现在 做 同样 的 事情 ， 但 使 用 最 短 的 访问 时 间 优 先 (SATF〉 调度 程序 
(-p SATF) 。 它 是 否 对 -a 7，30. 8 指定 的 一 组 请 求 有 所 不 同 ? 找到 
SATF 明 显 优 于 SSTF 的 一 组 请 求 。 出 现 显 著 差 异 的 条 件 是 什么 ? 


6， 你 可 能 已 经 注意 到 ， 该 磁盘 没有 特别 好 地 处 理 请 求 流 -a 10，11， 
12，13。 这 是 为 什么 ? 你 可 以 引入 一 个 磁道 偏 斜 来 解决 这 个 问题 (-o 
skew， 其 中 skew 是 一 个 非 负 整数 ) ? 考虑 到 默认 寻 道 速率 ， 偏 斜 应 访 
是 多 少 ， 才 能 尽量 减少 这 一 组 请 求 的 总 时 间 ? 对 于 不 同 的 寻 道 速率 
(例如 ，-S 2，-S 4) 呢 ? 一 般 来 说 ， 考 虑 到 寻 道 速率 和 扇 区 布局 信 
息 ， 你 能 否 写 出 一 个 公式 来 计算 偏 斜 ? 


7. 多 区 域 磁盘 将 更 多 扇 区 放 到 外 圈 磁 道中 。 以 这 种 方式 配置 此 磁盘 ， 
请 使 用 -z 标 志 运 行 。 具 体 来 说 ， 和 尝试 运行 一 些 请 求 ， 针 对 使 用 -z 10， 
20，30 的 磁盘 《〈 这 些 数字 指定 了 扇 区 在 每 个 磁道 中 占用 的 角度 空间 。 
在 这 个 例子 中 ， 外 圈 磁 道 每 隔 10 度 放 入 一 个 而 区 ， 中 间 磁 道 每 20 度 ， 
内 圈 磁 道 每 30 度 一 个 忆 区 ) 。 和 运行 一 些 随 机 请 求 〈 例 如 ，-a -1 -A 
5，-1，0， 它 通过 -a -1 标志 指定 使 用 随机 请 求 ， 并 且 生 成 从 0 到 最 大 
值 的 五 个 请 求 ) ， 看 看 你 是 否 可 以 计算 寻 道 、 旋 转 和 传输 时 间 。 使 用 
不 同 的 随机 种 子 〈-s 1，-s 2 等 ) 。 外 圈 ， 中 间 和 内 圈 磁 道 的 带宽 
《每 单位 时 间 的 局 区 数 ) 古 多 少 ? 


8. 调度 窗口 确定 一 次 磁盘 可 以 接受 多 少 个 扇 区 请 求 ， 以 确定 下 一 个 要 
服务 的 扇 区 。 生 成 大 量 请 求 的 某 种 随机 工作 负载 “〈 例 如 ，-=A 
1000，-1，0， 可 能 用 不 同 的 种 子 ) ， 并 查看 调度 窗口 从 1 变 为 请 求 数 
































量 时 ，SATF 调 度 器 需要 多 长 时 间 〈 即 -w 1 至 -w 1000， 以 及 其 间 的 一 些 
值 ) 。 需 要 多 大 的 调度 窗口 才能 达到 最 佳 性 能 ? 制作 一 张 图 并 看 看 。 
提示 : 使 用 -c 标 志 ， 不 要 使 用 -6 打开 图 形 ， 以 便 更 快运 行 。 当 调度 窗 
口 设置 为 1 时 ， 你 使 用 的 是 哪 种 策略 ? 


9. 在 调度 程序 中 避免 饥饿 非常 重要 。 对 于 SATF 这 样 的 策略 ， 你 能 否 想 
到 一 系列 的 请 求 ， 导 致 特定 扇 区 的 访问 被 推迟 了 很 长 时 间 ? 给 定 序 
列 ， 如 果 使 用 有 界 的 SATF (bounded SATF ，BSATF) 调度 方法 ， 它 将 
如 何 执行 ? 在 这 种 方法 中 ， 你 可 以 指定 调度 窗口 (例如 -w 4) 以 及 
BSATF 策 略 (-p BSATF) 。 这 样 ， 调 度 程序 只 在 当前 窗口 中 的 所 有 请 求 
都 被 服务 后 ， 才 移动 到 下 一 个 请 求 窗 口 。 这 是 否 解决 了 饥 狐 问题? 与 
SATF 相 比 ， 它 的 表现 如 何 ? 一 般 来 说 ， 和 磁盘 如 何在 性 能 与 避免 饥饿 之 
间 进 行 权 衡 ? 

10. 到 目前 为 止 ， 我 们 看 到 的 所 有 调度 策略 都 很 贫 禁 〈greedy) ， 因 
为 它们 只 是 选择 下 一 个 最 佳 选 项 ， 而 不 是 在 一 组 请 求 中 寻找 最 优 调 
度 。 你 能 找到 一 组 请 求 ， 导 致 这 种 贪 禁 方法 不 是 最 优 吗 ? 























第 38 章 ”廉价 元 余 磁盘 阵列 〈RAID ) 











我 们 使 用 磁盘 时 ， 有 时 希望 它 更 快 。I1/0 操 作 很 慢 ， 因 此 可 能 成 为 整个 
系统 的 瓶颈 。 我 们 使 用 磁盘 时 ， 有 时 希望 它 更 大 。 越 来 越 多 的 数据 正 
在 上 线 ， 因 此 磁盘 变 得 越 来 越 满 。 我 们 使 用 磁盘 时 ， 有 时 和 希望 它 更 可 
笔 。 如 条 磁盘 出 现 故障 ， 而 数据 没有 备份 ， 那 么 所 有 有 价值 的 数据 都 


没 了 。 














关键 问题 : 如 何 得 到 大 型 、 快 速 、 可 靠 的 磁盘 


我 们 如 何 构建 一 个 大 型 、 快 速 和 可 人 靠 的 存储 系统 ? 关键 技术 
是 什么 ? 不 同方 法 之 间 的 折 中 是 什么 ? 


本 章 将 介绍 廉价 了 元 余 磁 竹 阵列 (Redundant Array of Inexpensive 
Disks) ， 更 多 时 候 称 为 RAID [P+88]， 这 种 技术 使 用 多 个 磁盘 一 起 构 
建 更 快 、 更 大 、 更 可 靠 的 磁盘 系统 。 这 个 词 在 20 世 纪 80 年 代 后 期 由 
U.C. 伯克利 的 一 组 研究 人 员 引 入 (由 David Patterson 教 授 和 Randy 
Katz 教 授 以 及 后 来 的 学 生 Garth Gibson 领 导 ) 。 大 约 在 这 个 时 候 ， 许 
多 不 同 的 研究 人 员 同 时 提出 了 使 用 多 个 人 磁盘 来 构建 更 好 的 存储 系统 的 
基本 思想 [BJ88，K86，K88，PB86，SG86] 。 


从 外 部 看 ，RAID 看 起 来 像 一 个 人 磁盘: 一 组 可 以 读 取 或 写 入 的 块 。 在 内 
部 ，RAID 是 一 个 复杂 的 庞然大物 ， 由 多 个 磁盘 、 内 存 〈 包 括 易 失 性 和 
非 易 失 性 ) 以 及 一 个 或 多 个 处 理 器 来 管理 系统 。 硬 件 RAID 非 常 像 一 个 
计算 机 系统 ， 专 门 用 于 管理 一 组 磁盘 。 


与 单个 磁盘 相 比 ，RAID 具 有 许多 优点 。 一 个 好 处 就 是 性 能 。 并 行使 用 
多 个 磁盘 可 以 大 大 加 快 1/0 时 间 。 男 一 个 好 处 是 容量 。 大 型 数据 集 需 要 
大 型 磁盘 。 最 后 ，RAID 可 以 提高 可 靠 性 。 在 多 个 磁盘 上 传输 数据 〈 无 
RAID 技 术 ) 会 使 数据 容易 受到 单个 磁盘 丢失 的 影响 。 通 过 茶 种 形式 的 











宛 余 〈redundancy) ，RAID 可 以 容许 损失 一 个 磁盘 并 保持 运行 ， 就 像 
没有 错误 一 样 。 


提示 : 透明 支持 部 署 


在 考虑 如 何 向 系统 添加 新 功能 时 ， 应 该 始终 考虑 是 否 可 以 透 
明 地 (transparently) 添加 这 样 的 功能 ， 而 不 需要 对 系统 其 
余部 分 进行 更 改 。 要 求 彻 底 重 写 现 有 软件 (或 激进 的 硬件 更 
改 ) 会 减少 创意 产生 影响 的 机 会 。RAID 就 是 一 个 很 好 的 例 
子 ， 它 的 透明 肯定 有 助 于 它 的 成 功 。 管 理 员 可 以 安装 基于 
SCSI 的 RAID 存 储 阵 列 而 不 是 SCSI 磁 盘 ， 系 统 的 其 他 部 分 〈 主 
机 ， 操 作 系 统 等 ) 不 必 更 改 一 位 就 可 以 开始 使 用 它 。 通 过 解 
决 这 个 部 署 〈deployment ) 问题 ，RAID 从 第 一 天 开始 就 取得 
了 更 大 的 成 功 。 





令 人 惊讶 的 是 ，RAID 为 使 用 它们 的 系统 透明 地 (transparently) 提供 
了 这 些 优势 ， 即 RAID 对 于 主机 系统 看 起 来 就 像 一 个 大 磁盘 。 当 然 ， 透 
明 的 好 处 在 于 它 可 以 简单 地 用 RAID 蔡 换 磁盘 ， 而 不 需要 更 换 一 行 软 
件 。 操 作 系 统 和 客户 端 应 用 程序 无 须 修改 ， 就 可 以 继续 运行 。 通 过 这 
种 方式 ， 透 明 极 大 地 提高 了 RAID 的 可 部 署 性 (deployability〉， 使 用 
户 和 管理 员 可 以 使 用 RAID， 而 不 必 担 心软 件 兼容 性 问题 。 


我 们 现在 来 讨论 一 些 RAID 的 重要 方面 。 从 接口 、 故 障 模 型 开始 ， 然 后 
讨论 如 何在 3 个 重要 的 方面 评估 RAID 设 计 : 容量 、 可 靠 性 和 性 能 。 然 
后 我 们 讨论 一 些 对 RAID 设 计 和 实现 很 重要 的 其 他 问题 。 








38.1 接口 和 RAID 内 部 





对 于 上 面 的 文件 系统 ，RAID 看 起 来 像 是 一 个 很 大 的 、【〔 我 们 希望 是 ) 
快速 的 、 并 且 (希望 是 ) 可 靠 的 磁盘 。 就 像 使 用 单个 磁盘 一 样 ， 它 将 
自己 展现 为 线性 的 块 数组 ， 每 个 块 都 可 以 由 文件 系统 (或 其 他 客户 
端 ) 读 取 或 写 入 。 


当 文 件 系统 向 RAID 发 出 逻辑 I/0 请 求 时 ，RAID 内 部 必须 计算 要 访问 的 磁 
盘 〈 或 多 个 磁盘 ) 以 完成 请 求 ， 然 后 发 出 一 个 或 多 个 物理 1/0 来 执行 此 
0 这 些 物理 1/0 的 确切 性 质 取 决 了 RAID 级 列 ， 我 们 将 在 下 面 详细 讨 
。 但 是 ， 举 一 个 简单 的 例子 ， 考 虑 一 个 RAID， 它 保留 每 个 块 的 两 个 
副本 (每 个 都 在 一 个 单独 的 磁盘 上 ) 。 当 写 入 这 种 镜像 (mirrored) 
RAID 系 统 时 ，RAID 必 须 为 它 发 出 的 每 一 个 逻辑 I/0 执 行 两 个 物理 1/0。 


RAID 系 统 通常 构建 为 单独 的 硬件 盒 ， 并 通过 标准 连 车 接 (例如 ， SCSI 或 
SATA) 接 入 主机 。 然 而 ， 在 内 部 ，RAID 相 当 复 杂 。 它 包括 一 个 微 控制 
器 ， 运 行 圈 件 以 指导 RAID 的 操作 。 它 还 包括 DRAM 这 样 的 易 失 性 存储 
器 ， 在 读 取 和 写 入 时 缓冲 数据 块 。 0 还 包括 非 易 失 性 存 
储 器 ， 安 全 地 缓冲 写 入 。 它 甚至 可 能 包含 专用 的 逻辑 电路 ， 来 执行 奇 
| 下 面 会 提 到 ) 。 在 很 高 的 
层面 上 ，RAID 是 一 个 非常 专业 的 计算 机 系统 ， 它 有 一 个 处 理 器 ， 内 存 
ee 
次 件 。 








38.2 故障 模型 


要 理解 RAID 并 比较 不 同 的 方法 ， 我 们 必须 考虑 故障 模型 。RAID 旨 在 检 
测 并 从 某 些 类 型 的 磁盘 故障 中 恢复 。 因 此 ， 准 确 地 知道 哪些 故障 对 于 
实现 工作 设计 至 关 重 要 。 


我 们 假设 的 第 一 个 故障 模型 非常 简单 ， 并 且 被 称 为 故障 一 停止 (fail- 
stop) 故障 模型 [S84] 。 在 这 种 模式 下 ， 磁 盘 可 以 处 于 两 种 状态 之 一 : 
工作 状态 或 故障 状态 。 使 用 工作 状态 的 磁盘 时 ， 所 有 块 都 可 以 读 取 或 
写 入 。 相 反 ， 当 磁盘 出 现 故 障 时 ， 我 们 认为 它 永 久 丢失 。 


故障 一 停止 模型 的 一 个 关键 方面 是 它 关 于 故障 检测 的 假定 。 具 体 来 

说 ， 当 磁盘 发 生 故 障 时 ， 我 们 认为 这 很 容易 检测 到 。 例 如 ， 在 RAID 阵 

| 我 们 假设 RAID 控 制 器 硬件 (或 软件 ) 可 以 立即 观察 磁盘 何 时 发 
障 。 


因此 ， 我 们 暂时 不 必 担 心 更 复杂 的 “无 声 ” 故 障 ， 如 磁盘 损坏 。 我 们 
也 不 必 担 心 在 其 他 工作 磁盘 上 无 法 访问 单个 块 《 有 时 称 为 潜在 鹿 区 错 








应 ) 。 稍 后 我 们 会 考虑 这 些 更 复杂 的 (遗憾 的 是 ， 更 现实 的 ) 磁盘 错 
误 。 


38.3 ”如何 评 估 RAID 


我 们 很 快 会 看 到 ， 构 建 RAID 有 多 种 不 同 的 方法 。 每 种 方法 都 有 不 同 的 
特点 ， 这 值得 评估 ， 以 便 了 解 它 们 的 优 缺点 。 


有 具体 来 说 ， 我 们 将 从 3 个 方面 评估 每 种 RAID 设 计 。 第 一 个 方面 是 容量 
(capacity) 。 在 给 定 一 组 W 个 磁盘 的 情况 下 ，RAID 的 客户 端 可 用 的 容 
量 有 多 少 ? 没有 抑 余 ， 答 案 显然 是 w。 不 同 的 是 ， 如 果 有 一 个 系统 保存 
每 个 块 的 两 个 副本 ， 我 们 将 获得 M2 的 有 用 容量 。 不 同 的 方案 〈 例 如 ， 
基于 校 验 的 方案 ) 通常 介 于 两 者 之 间 。 


第 二 个 方面 是 可 靠 性 (reliability) 。 给 定 设计 允许 有 多 少 磁盘 故 
隐 ? 根据 我 们 的 故障 模型 ， 我 们 只 假设 整个 磁盘 可 能 会 故障 。 在 后 面 
的 章节 《例如 ， 关 于 数据 完整 性 的 第 44 章 ) 中 ， 我 们 将 考虑 如 何 处 理 
更 复杂 的 故障 模式 。 


最 后 ， 第 三 个 方面 是 性 能 (performance) 。 人 性 能 有 点 难以 评估 ， 因 为 
它 在 很 大 程度 上 取决 于 磁盘 阵列 提供 的 工作 负载 。 因 此 ， 在 评估 性 能 
之 前 ， 我 们 将 首先 提出 一 组 应 该 考虑 的 典型 工作 负载 。 


我 们 现在 考虑 3 个 重要 的 RAID 设 计 : RAID 0 级 〈 条 带 化 ) ，RAID 1 级 
(镜像 ) 和 RAID 4/5 级 (基于 奇偶 校 验 的 见 余 ) 。 这 些 设 计 中 的 每 一 
个 都 被 命名 为 一 “级 ”， 源 于 伯克利 的 Patterson、Gibson 和 Katz 的 开 
创 性 工作 [P+88]。 


























38.4 RAID 0 级 : 条 带 化 


第 一 个 RAID 级 别 实 际 上 不 是 RAID 级 别 ， 因 为 没有 元 余 。 但 是 ，RAID 0 
级 ( 即 条 融化 ，striping〉 因 其 更 为 人 所 知 ， 可 作为 性 能 和 容量 的 优 


秀 上 限 ， 所 以 值得 了 解 。 


最 简单 的 条 带 形式 将 按 表 38. 1 所 示 的 方式 在 系统 的 磁盘 上 将 块 条 融化 
(stripe) ， 假 设 此 处 为 4 个 磁盘 阵列 。 


表 38. 1 RAID-0: 简单 条 带 化 














通过 表 38.1， 你 了 解 了 基本 思想 : 以 轮转 方式 将 磁盘 阵列 的 块 分 布 在 
磁盘 上 。 这 种 方法 的 目的 是 在 对 数组 的 连续 块 进行 请 求 时 ， 从 阵列 中 
获取 最 大 的 并 行 性 〈 例 如， 在 一 个 大 的 顺序 读 取 中 ) 。 我 们 将 同一 行 
中 的 块 称 为 条 带 ， 因 此 ， 上 面 的 块 0(、1、2 和 3 在 相同 的 条 融 中 。 

在 这 个 例子 中 ， 我 们 做 了 一 个 简化 的 假设 ， 在 每 个 磁盘 上 只 有 1 个 块 
(每 个 大 小 为 4KB〉 放 在 下 一 个 磁盘 上 。 但 是 ， 这 种 安排 不 是 必然 的 。 
例如 ， 我 们 可 以 像 表 38. 2 那样 在 磁盘 上 安排 块 。 


表 38. 2 使 用 较 大 的 大 块 大 小 进行 条 带 化 
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在 这 个 例子 中 ， 我 们 在 每 个 磁盘 上 放置 两 个 区 B 块 ， 然 后 移动 到 下 一 个 
磁盘 。 因 此 ， 此 RAID 阵 列 的 大 块 大 小 〈chunk size) 为 8KB， 因 此 条 带 
由 4 个 大 块 〈 或 32KB) 数据 组 成 。 


补充 RAID 映 射 问题 


在 研究 RAID 的 容量 、 可 靠 性 和 性 能 特征 之 前 ， 我 们 首先 提出 
一 个 问题 ， 我 们 称 之 为 映射 问题 (the mapping problem) 。 
这 个 问题 出 现在 所 有 RAID 阵 列 中 。 简 单 地 说 ， 给 定 一 个 逻辑 
块 来 读 或 写 ，RAID 如 何 确切 地 知道 要 访问 哪个 物理 磁盘 和 偏 








对 于 这 些 简 单 的 RAID 级 别 ， 我 们 不 需要 太 多 复杂 计算 ， 就 能 

正确 地 将 逻辑 块 映 射 到 其 物理 位 置 。 以 上 面 的 第 一 个 条 带 为 

例 ( 大 块 大 小 = 1 块 = 4KB) 。 在 这 种 情况 下 ， 给 定 逻 辑 块 地 

0 0 
移 量 : 


磁盘 = A % 磁盘 数 
偏 移 量 = A / 磁盘 数 


请 注意 ， 这 些 都 是 整数 运算 (例如 ，4/3 = 1 而 不 是 
1. 33333… ) 。 我 们 来 看 看 这 些 公 式 如 何 用 于 一 个 简单 的 例 
子 。 假 设 在 上 面 的 第 一 个 RAID 中 ， 对 块 15 的 请 求 到 达 。 鉴 于 
有 4 个 磁盘， 这 意味 着 我 们 感 兴趣 的 磁盘 是 (14 % 4 = 2) : 
磁盘 2。 确 切 的 块 计 算 为 (14 / 4 = 3) : 块 3。 因 此 ， 应 在 
第 三 个 磁盘 (磁盘 2， 从 0 开始 ) 的 第 四 个 块 ( 块 3， 从 0 开 
始 ) 处 找到 块 14， 该 块 恰好 位 于 该 位 置 。 


你 可 以 考虑 如 何 修改 这 些 公 式 来 支持 不 同 的 块 大 小 。 尝 试 一 
下 ! 这 不 太 难 。 


大 块 大 小 


一 方面 ， 大 块 大 小 主要 影响 阵列 的 性 能 。 例 如 ， 大 小 较 小 的 大 块 意 味 
着 许多 文件 将 跨 多 个 磁盘 进行 条 带 化 ， 从 而 增加 了 对 单个 文件 的 读 取 
和 写 入 的 并 行 性 。 但 是 ， 跨 多 个 磁盘 访问 块 的 定位 时 间 会 增加 ， 因 为 
整个 请 求 的 定位 时 间 由 所 有 驱动 器 上 请 求 的 最 大 定位 时 间 决 定 。 


另 一 方面 ， 较 大 的 大 块 大 小 减少 了 这 种 文件 内 的 并 行 性 ， 因 此 依靠 多 
个 并 发 请 求 来 实现 高 否 吐 量 。 但 是 ， 较 大 的 大 块 大 小 减少 了 定位 时 
间 。 例 如 ， 如 果 一 个 文件 放 在 一 个 块 中 并 放置 在 单个 磁盘 上 ， 则 访问 
它 时 发 生 的 定位 时 间 将 只 是 单个 磁盘 的 定位 时 间 。 


因此 ， 确 定 “ 最 佳 ”的 大 块 大 小 是 很 难 做 到 的 ， 因 为 它 需 要 大 量 关 于 
提供 给 磁盘 系统 的 工作 负载 的 知识 [CL95] 。 对 于 本 讨论 的 其 余部 分 ， 
我 们 将 假定 该 数组 使 用 单个 块 “4KB〉 的 大 块 大 小 。 大 多 数 阵 列 使 用 较 
大 的 大 块 大 小 (例如 ，64KB〉， 但 对 于 我 们 在 下 面 讨论 的 问题 ， 确 切 
的 块 大 小 无 关 紧 要 。 因 此 ， 简 单 起 见 ， 我 们 用 一 个 单独 的 块 。 
































回 到 RAID-0 分 析 


现在 让 我 们 评估 条 带 化 的 容量 、 可 靠 性 和 性 能 。 从 容量 的 角度 来 看 ， 
它 是 顶级 的 : 给 定 W 个 磁盘 ， 条 件 化 提供 AN 个 磁盘 的 有 用 容量 。 从 可 靠 
性 的 角度 来 看 ， 条 带 化 也 是 顶级 的 ， 但 是 最 糟 糙 : 任何 磁盘 故障 都 会 
导致 数据 丢失 。 最 后 ， 性 能 非常 好 : 通常 并 行使 用 所 有 磁盘 来 为 用 户 
1/0 请 求 提供 服务 。 


评估 RAID 性 能 


在 分 析 RAID 性 能 时 ， 可 以 考虑 两 种 不 同 的 性 能 指标 。 首 先是 单 请 求 延 
迟 。 了 解 单个 1/0 请 求 对 RAID 的 满意 度 非常 有 用 ， 因 为 它 可 以 揭示 单个 





逻辑 1/0 操 作 期 间 可 以 存在 多 少 并 行 性 。 第 二 个 是 RAID 的 稳 态 否 吐 量 ， 
即 许 多 并 发 请 求 的 总 带宽 。 由 于 RAID 和 常用 于 高 性 能 环境 ， 因 此 稳 态 带 
宽 至 关 重 要 ， 因 此 将 成 为 我 们 分 析 的 主要 重点 。 


为 了 更 详细 地 理解 吞吐 量 ， 我 们 需要 提出 一 些 感 兴趣 的 工作 负载 。 对 
于 本 次 讨论 ， 我 们 将 假设 有 两 种 类 型 的 工作 负载 : 顺序 
(sequential) 和 随机 (random) 。 对 于 顺序 的 工作 负载 ， 我 们 假设 
对 阵列 的 请 求 大 部 分 是 连续 的 。 例 如 ， 一 个 请 求 〈 或 一 系列 请 求 ) 访 
问 1MB 数 据 ， 始 于 块 (B) ， 终 于 (B+1MB) ， 这 被 认为 是 连续 的 。 顺 序 
工作 负载 在 很 多 环境 中 都 很 第 见 《〈 想 想 在 一 个 大 文件 中 搜索 关键 
字 ) ， 因 此 被 认为 是 重要 的 。 


对 于 随机 工作 负载 ， 我 们 假设 每 个 请 求 都 很 小 ， 并 且 每 个 请 求 都 是 到 
磁盘 上 不 同 的 随机 位 置 。 例 如 ， 随 机 请 求 流 可 能 首先 在 逻辑 地 址 10 处 
访问 4KB， 然 后 在 逻辑 地 址 550000 处 访问 ， 然 后 在 20100 处 访问 ， 等 
等 。 一 些 重要 的 工作 负载 (例如 数据 库 管理 系统 (DBMS) 上 的 事务 工 
I 
中国 4。 


当然 ， 真 正 的 工作 负载 不 是 那么 简单 ， 并 且 往 往 混 合 了 顺序 和 类 似 随 
机 的 部 分 ， 行 为 介 于 两 者 之 间 。 简 单 起 见 ， 我 们 只 考虑 这 两 种 可 能 
| 











你 知道 ， 顺 序 和 随机 工作 负载 会 导致 磁盘 的 性 能 特征 差异 很 大 。 对 于 
顺序 访问 ， 磁 盘 以 最 高 效 的 模式 运行 ， 花 费 很 少时 间 寻 道 并 等 待 旋 
转 ， 大 部 分 时 间 都 在 传输 数据 。 对 于 随机 访问 ， 情 况 恰恰 相反 : 大 部 
分 时 间 花 在 寻 道 和 等 待 旋转 上 ， 花 在 传输 数据 上 的 时 间 相 对 较 少 。 为 
了 在 分 析 中 捕捉 到 这 种 差异 ， 我 们 将 假设 磁盘 可 以 在 连续 工作 负载 下 
以 S MB/s 传 输 数据 ， 并 且 在 随机 工作 负载 下 以 MB/s 传 输 数 据 。 一 般 
来 说 ，S 比 R 大 得 多 。 
为 了 确保 理解 这 种 差异 ， 我 们 来 做 一 个 简单 的 练习 。 有 具体 来 说 ， 给 定 
以 下 磁盘 特征 ， 计 算 5 和 8。 假 设 平均 大 小 为 1OMB 的 连续 传输 ， 平 均 为 
10KB 的 随机 传输 。 另 外 ， 假 设 以 下 磁盘 特征 : 

平均 寻 道 时 间 7ms 


平均 旋转 延迟 3ms 





倒 盘 传输 速率 50MB/S 


要 计算 S$， 我 们 需要 首先 计算 在 典型 的 10MB 传 输 中 花费 的 时 间 。 首 先 ， 
我 们 花 7ms 寻 找 ， 然 后 3ms 旋 转 。 最 后 ， 传 输 开 始 。10MB @ 50MB/s 导 致 
1/5s， 即 200ms 的 传输 时 间 。 因 此 ， 对 于 每 个 10MB 的 请 求 ， 花 费 了 
210ms 完 成 请 求 。 要 计算 $5， 只 需要 除 一 下 : 

”数据 量 10MB Ne 

访问 时 间 210ms re 

如 你 所 见 ， 由 于 大 量 时 间 用 于 传输 数据 ，5 非 常 接 近 人 磁盘 的 峰值 带宽 
( 寻 道 和 旋转 成 本 已 经 挫 销 〉。 


我 们 可 以 类 似 地 计算 中 寻 道 和 旋转 是 一 样 的 。 然 后 我 们 计算 传输 所 花 
费 的 时 间 ， 即 10KB @ 50MB/s， 即 0. 195ms 。 














数据 量 10KB 


”访问 时 间 10.195ms 


如 你 所 见 ，A 疏 于 1MB/s，S/R 几 平 为 50 倍 。 


= 0.981MB/s 








再 次 回 到 RAID-0 分 析 


现在 我 们 来 评估 条 融化 的 性 能 。 正 如 我 们 上 面 所 说 的 ， 它 通常 很 好 。 
例如 ， 从 延迟 角度 来 看 ， 单 块 请 求 的 延迟 应 该 与 单个 磁盘 的 延迟 几乎 
相同 。 毕 竟 ，RAID-0 将 简单 地 将 该 请 求 重 定 向 到 其 磁盘 之 一 。 


从 稳 态 吞吐 量 的 角度 来 看 ， 我 们 期 望 获得 系统 的 全 部 人 带宽。 因此， 大 
吐 量 等 于 WV (磁盘 数量 ) 乘 以 9 〈 单 个 磁盘 的 顺序 带宽 ) 。 对 于 大 量 的 
随机 I/0， 我 们 可 以 再 次 使 用 所 有 的 磁盘 ， 从 而 获得 WV。 R MB/s。 我 们 
在 后 面 会 看 到 ， 这 些 值 都 是 最 简单 的 计算 值 ， 并 且 将 作为 与 其 他 RAID 
级 别 比较 的 上 限 。 


38.5 RAID 1 级 : 镜像 


第 一 个 超越 条 带 化 的 RAID 级 别称 为 RAID 1 级 ， 即 镜像 。 对 于 镜像 系 
统 ， 我 们 只 需 生成 系统 中 每 个 块 的 多 个 副本 。 当 然 ， 每 个 副本 应 该 放 
在 一 个 单独 的 磁盘 上 。 通 过 这 样 做 ， 我 们 可 以 容许 磁盘 故障 。 


在 一 个 典型 的 镜像 系统 中 ， 我 们 将 假设 对 于 每 个 逻辑 块 ，RAID 保 留 
个 物理 副本 。 表 38. 3 所 示 的 是 一 个 例子 。 


表 38.3 简单 RAID-1: 镜像 














在 这 个 例子 中 ， 磁 盘 0 和 磁盘 1 具有 相同 的 内 容 ， 而 磁盘 2 和 磁盘 3 也 具 
有 相同 的 内 容 。 数 据 在 这 些 镜像 对 之 间 条 带 化 。 实 际 上 ， 你 可 能 已 经 
注意 到 有 多 种 不 同 的 方法 可 以 在 磁盘 上 放置 块 副 本 。 上 面 的 安排 是 常 
见 的 安排 ， 有 时 称 为 RAID-10 (或 RAID 1+0) ， 因 为 它 使 用 镜像 对 
CRAID-1) ， 然 后 在 其 上 使 用 条 带 化 CRAID-0) 。 另 一 种 常见 安排 是 
RAID-01 (或 RAID 0+1) ， 它 包含 两 个 大 型 条 带 化 〈RAID-0) 阵列 ， 然 
后 是 镜像 〈RAID-1) 。 目 前 ， 我 们 的 讨论 只 是 假设 上 面 布局 的 镜像 。 


从 镜像 阵列 读 取 块 时 ，RAID 有 一 个 选择 : 它 可 以 读 取 任 一 副本 。 例 
如 ， 如 果 对 RAID 发 出 对 光 辑 块 5 的 读 取 ， 则 可 以 目 由 地 从 磁盘 2 或 磁盘 3 
读 取 它 。 但 是 ， 在 写 入 块 时 ， 不 存在 这 样 的 选择 : RAID 必 须 更 新 两 个 
副本 的 数据 ， 以 保持 可 靠 性 。 但 请 注意 ， 这 些 写 入 可 以 并 行进 行 。 例 
如 ， 对 好 辑 块 5 的 写 入 可 以 同时 在 磁盘 2 和 3 上 进行 。 








RAID-1 分 析 


让 我 们 评估 一 下 RAID-1。 从 容量 的 角度 来 看 ，RAID-1 价 格 昂 贯 。 在 镜 
像 级 别 =2 的 情况 下 ， 我 们 只 能 获得 峰值 有 用 容量 的 一 半 。 因 此 ， 对 于 
个 磁盘 ， 镜 像 的 有 用 容量 为 W2。 


从 可 靠 性 的 角度 来 看 ，RAID-1 表 现 展 好。 生 可 以 容许 任何 一 个 磁盘 的 
故障 。 你 也 许 会 注意 到 RAID-1 实 际 上 可 以 做 得 比 这 更 好 ， 只 需要 一 点 
运气 。 想 象 一 下 ， 在 表 38. 3 中 ， 磁 盘 0 和 磁盘 2 都 故障 了 。 在 这 种 情况 
下 ， 没 有 数据 丢失 ! 更 一 般 地 说 ， 镜 像 系统 (镜像 级 别 为 2) 肯定 可 以 
容许 一 个 磁盘 故障 ， 最 多 可 容许 W2 个 磁盘 故障 ， 这 取决 于 哪些 磁盘 故 
障 。 在 实践 中 ， 我 们 通常 不 喜欢 把 这 样 的 事情 交 给 运气 。 因 此 ， 大 多 
数 人 认为 镜像 对 于 处 理 单个 故障 是 很 好 的 。 


最 后 ， 我 们 分 析 性 能 。 从 蛙 个 读 取 请 求 的 延迟 角度 来 看 ， 我 们 可 以 看 
到 它 与 单个 磁盘 上 的 延迟 相同 。 所 有 RAID-1 都 会 将 读 取 导 癌 一 个 副 
本 。 写 入 有 点 不 同 : 在 完成 写 入 之 前 ， 需 要 完成 两 次 物理 写 入 。 这 两 
个 写 入 并 行 及 生 ， 因 此 时 间 大 致 等 于 单 次 写 入 的 时 间 。 然 而 ， 因 为 逻 
辑 写 入 必须 等 待 两 个 物理 写 入 完成 ， 所 以 它 遭 遇 到 两 个 请 求 中 最 差 的 
寻 道 和 旋转 延迟 ， 因 此 《平均 而 言 ) 比 写 入 单个 磁盘 略 高 。 














补充 : RAID 一 致 更 新 问题 


在 分 析 RAID-1 之 前 ， 让 我 们 先 讨 论 所 有 多 磁盘 RAID 系 统 都 会 
出 现 的 问题 ， 称 为 一 致 更 新 间 题 〈consistent-update 
problem) [DAA05] 。 对 于 任何 在 单个 逻辑 操作 期 间 必 须 更 新 
多 个 磁盘 的 RAID， 会 出 现 这 个 问题 。 在 这 里 ， 假 设 考虑 镜像 
人 磁盘 阵列 。 


想象 一 下 写 入 发 送 到 RAID， 然 后 RAID 决 定 它 必须 写 入 两 个 磁 
盘 ， 即 磁盘 0 和 磁盘 1。 然 后 ，RAID 向 磁盘 0 写 入 数据 ， 但 在 
RAID 发 出 请 求 到 磁盘 1 之 前 ， 发 生 掉 电 【《 或 系统 月 溃 ) 。 在 这 
个 不 幸 的 情况 下 ， 让 我 们 假设 对 磁盘 0 的 请 求 已 完成 (但 对 磁 
盘 1 的 请 求 显 然 没 有 完成 ， 因 为 它 从 未 发 出 ) 。 


这 种 不 合 时 宜 的 掉 电 ， 导 致 现在 数据 块 的 两 个 副本 不 一 致 
Cinconsistent ) 。 磁 盘 0 上 的 副本 是 新 版 本 ， 而 磁盘 1 上 的 
副本 是 旧 的 。 我 们 希望 的 是 两 个 磁盘 的 状态 都 原子 地 














Catomically) 改变 ， 也 就 是 说 ， 两 者 都 应 该 最 终 成 为 新 版 
本 或 者 两 者 都 不 是 。 


解决 此 问题 的 一 般 方 法 ， 是 使 用 某 种 预 写 日 志 (write-ahead 
log) ， 在 做 之 前 首先 记录 RAID 将 要 执行 的 操作 ( 即 用 某 个 数 
据 更 新 两 个 人 磁盘) 。 通 过 采取 这 种 方法 ， 我 们 可 以 确保 在 发 
生 骨 演 时 ， 会 发 生 正 确 的 事情 。 通 过 运行 一 个 恢复 
(recovery) 过 程 ， 将 所 有 未 完成 的 事务 重新 在 RAID 上 执 
行 ， 我 们 可 以 确保 两 个 镜像 副本 〈 在 RAID-1 情 况 下 ) 同步 。 


最 后 一 个 注意 事项 : 每 次 写 入 都 在 磁盘 上 记录 日 志 ， 这 个 代 
价 昂贵 得 不 行 ， 因 此 大 多 数 RAID 硬 件 都 包含 少量 非 易 失 性 
RAM (例如 电池 有 备份 的 ) ， 用 于 执行 此 类 记录 。 因 此 ， 既 拓 
I 
磁盘 。 











要 分 析 稳 态 吞 吐 量 ， 让 我 们 从 顺序 工作 负载 开始 。 顺 序 写 入 磁盘 时 ， 
每 个 逻辑 写 入 必定 导致 两 个 物理 写 入 。 例 如 ， 当 我 们 写 入 逻辑 块 0 (在 
表 38. 3 中) 时 ，RAID 在 内 部 会 将 它 写 入 磁盘 0 和 磁盘 1。 因 此 ， 我 们 可 
「 \ 
ce 
纵 得 出 结论 ， 顺 序 写 入 镜像 阵列 期 间 获 得 的 最 大 带宽 是 2“/， 即 话 
值 带宽 的 一 半 


遗憾 的 是 ， 我 们 在 顺序 读 取 过 程 中 获得 了 完全 相同 的 性 能 。 有 人 可 能 
会 认为 顺序 读 取 可 能 会 更 好 ， 因 为 它 只 需要 读 取 一 个 数据 副本 ， 而 不 
是 两 个 副本 。 但 是 ， 让 我 们 用 一 个 例子 来 说 明 为 什么 这 没有 多 大 帮 
助 。 想 象 一 下 ， 我 们 需要 读 取 块 0(、1、2、3、4、5、6 和 7。 假 设 我 们 
将 0 读 到 磁盘 0， 将 1 读 到 磁盘 2， 将 2 读 到 磁盘 1， 读 取 3 到 磁盘 3。 我 们 
继续 分 别 同 磁盘 0、2、1 和 3 发 出 读 取 请 求 4、5、6 和 7。 有 人 可 能 天 真 
地 认为 ， 因 为 我 们 正在 利用 所 有 磁盘 ， 所 以 得 到 了 阵列 的 全 部 带宽 。 














但 是 ， 要 看 到 情况 并 非 如 此 ， 请 考虑 单个 磁盘 接收 的 请 求 〈 例 如 磁盘 

0) 。 首 先 ， 它 收 到 块 0 的 请 求 。 然 后 ， 它 收 到 块 4 的 请 求 〈 跳 过 块 

2) 。 实 际 上 ， 每 个 磁盘 都 会 接收 到 每 个 其 他 块 的 请 求 。 当 它 在 跳 过 的 

块 上 旋转 时 ， 不 会 为 客户 提供 有 用 的 带宽 。 因 此 ， 每 个 磁盘 只 能 提供 
Ns 

一 六 的 峰值 带宽 。 因 此 ， 顺 序 污 取 只 能 获得 C2“JMB/s 的 带宽 ， 

随机 读 取 是 镜像 RAID 的 最 佳 案例 。 在 这 种 情况 下 ， 我 们 可 以 在 所 有 磁 


可 上 分 配 读 取 数 据 ， 从 而 获得 完整 的 可 用 带宽 。 因 此 ， 对 于 随机 读 
取 ，RAID-1 提 供 NV。R MB/s。 





N 

最 后 ， 随 机 写 入 按照 你 预期 的 方式 执行 : 2 。R MB/s。 每 个 逻辑 写 入 
必须 变 成 两 个 物理 写 入 ， 因 此 在 所 有 磁盘 都 将 被 使 用 的 情况 下 ， 客 户 
只 会 看 到 可 用 带宽 的 一 半 。 尺 管 对 逻辑 块 Xx 的 写 入 变 为 对 两 个 不 同 物 理 
人 磁盘 的 两 个 并 行 写 入 ， 但 许多 小 型 请 求 的 带宽 只 能 达到 我 们 看 到 的 条 
带 化 的 一 半 。 我 们 很 快 会 看 到 ， 获 得 一 半 的 可 用 带宽 实际 上 相当 不 


而 | 


38.6 RAID 4 级 : 通过 奇偶 校 验 节省 空间 


我 们 现在 展示 一 种 癌 磁 盘 阵 列 添加 元 余 的 不 同方 法 ， 称 为 奇偶 校 验 
Cparity) 。 基 于 奇偶 校 验 的 方法 试图 使 用 较 少 的 容量 ， 从 而 克服 由 
镜像 系统 付出 的 巨大 空间 损失 。 不 过 ， 这 样 做 的 代价 是 一 一 性 能 。 


这 是 5 个 磁盘 的 RAID-4 系 统 的 例子 〈 见 表 38. 4) 。 对 于 每 一 条 数据 ， 我 
们 都 添加 了 一 个 奇偶 校 验 (parity) 块 ， 用 于 存储 该 条 块 的 匈 余 信 
息 。 例 如 ， 奇 偶 校 验 块 P1 具 有 从 块 4、5、6 和 7 计算 出 的 元 余 信 息 。 


表 38.4 具有 奇偶 校 验 的 RAID-4 
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为 了 计算 奇偶 性 ， 我 们 需要 使 用 一 个 数学 函数 ， 使 我 们 能 够 承受 条 带 
中 任何 一 个 块 的 损失 。 事 实 表明 ， 人 简单 异 或 (XOR) 函数 相当 不 错 。 对 
于 给 定 的 一 组 比特 ， 如 果 比 特 中 有 偶数 个 1， 则 所 有 这 些 比 特 的 XOR 返 
回 0， 如 果 有 奇数 个 1， 则 返回 1 如 表 38. 5 所 示 。 


表 38. 5 使 用 异 或 函数 


在 第 一 行 (0、0、1、1) 中 ， 有 两 个 1 (C2、C3) ， 因 此 所 有 这 些 值 的 
异 或 是 0(P〉。 同 样 ， 在 第 二 行 中 只 有 一 个 1 (C1) ， 因 此 XOR 必 须 是 
1 (P) 。 你 可 以 用 一 种 简单 的 方法 记 住 这 一 点 : 任何 一 行 中 的 1 的 数量 
必须 是 偶数 (而 不 是 奇数 ) 。 这 是 RAID 必 须 保持 的 不 变性 
(invariant) ， 以 便 奇 偶 校 验 正确 。 


从 上 面 的 例子 中 ， 你 也 许可 以 猜 出 ， 如 何 利 用 奇偶 校 验 信 息 从 故障 中 
恢复 。 想 象 一 下 标 为 C2 的 列 丢失 了 。 要 找 出 该 列 中 肯定 存在 的 值 ， 我 
们 只 需 读 取 该 行 中 的 所 有 其 他 值 (包括 XOR 的 奇偶 校 验 位 ) 并 重 构 
(reconstruct) 正确 的 答案 。 有 具体 来 说 ， 假 设 C2 列 中 第 一 行 的 值 丢 失 
( 它 是 1) 。 通 过 读 取 该 行 中 的 其 他 值 〈《C0 中 的 0，Cl 中 的 0，C3 中 的 1 
以 及 奇偶 校 验 列 P 中 的 0) ， 我 们 得 到 值 0、0、1 和 0。 因 为 我 们 知道 XOR 
保持 每 行 有 偶数 个 1， 所 以 就 知道 丢失 的 数据 肯定 是 什么 一 一 1。 这 就 
































是 重 构 在 基于 异 或 的 方案 中 的 工作 方式 ! 还 要 注意 如 何 计算 重 构 值 : 
只 要 将 数据 位 和 奇偶 校 验 位 异 或 ， 就 像 开 始 计算 奇偶 校 验 一 样 。 

现在 你 可 能 会 想 : 我 们 正在 讨论 所 有 这 些 位 的 异 或 ， 然 而 上 面 我 们 知 
道 RAID 在 每 个 磁盘 上 放置 了 4KB (或 更 大 ) 的 块 。 如 何 将 XOR 应 用 于 一 
堆 块 来 计算 奇偶 校 验 ? 事实 证 明 这 很 容易 。 只 需 在 数据 块 的 每 一 位 上 
执行 按 位 XOR。 将 每 个 按 位 XOR 的 结果 放 入 奇偶 校 验 块 的 相应 位 置 中 。 
例如 ， 如 果 我 们 有 4 位 大 小 的 块 (是 的 ， 这 个 块 仍然 比 4B 块 小 很 多 ， 
但 是 你 看 到 了 人 全景) ， 它 们 可 能 看 起 来 如 表 38. 6 所 示 。 


表 38.6 将 XOR 用 于 块 


Block0 |Blockl |Block2 |IBlock3 
00 10 
10 01 
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RAID-4 分 析 


现在 让 我 们 分 析 一 下 RAID-4。 从 容量 的 角度 来 看 ，RAID-4 使 用 1 个 人 磁盘 
作为 它 所 保护 的 每 组 磁盘 的 奇偶 校 验 信息 。 因 此 ，RAID 组 的 有 用 容量 
是 (NW-1) 。 


可 靠 性 也 很 容易 理解 : RAID-4 容 许 1 个 磁盘 故障 ， 不 容许 更 多 。 如 果 丢 
失 多 个 磁盘 ， 则 无 法 重建 丢失 的 数据 。 


最 后 ， 是 性 能 。 这 一 次 ， 让 我 们 从 分 析 稳 态 否 吐 量 开始 。 连 续 读 取 性 
能 可 以 利用 除 奇偶 校 验 磁盘 以 外 的 所 有 磁盘 ， 因 此 可 提供 (A-1) ，5 
MB/sS 《简单 情 况 ) 的 峰值 有 效 带 宽 。 





要 理解 顺序 写 入 的 性 能 ， 我 们 必须 首先 了 解 它 们 是 如 何 完成 的 。 将 大 
块 数据 写 入 磁盘 时 ，RAID-4 可 以 执行 一 种 简单 优化 ， 称 为 全 条 带 写 入 
(full-stripe write) 。 例 如 ， 设 想 块 0、1、2 和 3 作为 写 请 求 的 一 部 
分 发 送 到 RAID〈 见 表 38.7) 。 


表 38. 7 RAID-4 中 的 全 条 带 写 入 














在 这 种 情况 下 ，RAID 可 以 简单 地 计算 P0 的 新 值 〈 通 过 在 块 0、1、2 和 3 
上 执行 XOR) ， 然 后 将 所 有 块 〈 包 括 奇偶 块 ) 并行 写 入 上 面 的 5 个 磁盘 
(在 图 中 以 灰色 突出 显示 ) 。 因 此 ， 全 条 带 写 入 是 RAID-4 写 入 磁盘 的 
最 有 效 方式 。 


一 旦 我 们 理解 了 全 条 带 写 入 ， 计 算 RAID-4 上 顺序 写 入 的 性 能 就 很 容 
易 。 有 效 带 宽 也 是 (N=-1) 。S MB/s。 即 使 奇偶 校 验 磁盘 在 操作 过 程 中 
一 直 处 于 使 用 状态 ， 客 户 也 无 法 从 中 获得 性 能 优势 。 


现在 让 我 们 分 析 随 机 读 取 的 性 能 。 从 表 38. 7 中 还 可 以 看 到 ， 一 组 1 块 的 
随机 读 取 将 分 布 在 系统 的 数据 磁盘 上 ， 而 不 是 奇偶 校 验 磁盘 上 。 因 
此 ， 有 效 性 能 是 : (NW-1) ，R MB/s。 


随机 写 入 ， 我 们 留 到 了 最 后 ， 展 示 了 RAID-4 最 引 人 注 目的 情况 。 想 象 
一 下 ， 我 们 希望 在 上 面 的 例子 中 禾 盖 写 入 块 1。 我 们 可 以 继续 并 宪 者 
它 ， 但 这 会 给 我 们 带 来 一 个 问题 : 奇偶 校 验 块 P0 将 不 再 准确 地 反映 条 
币 的 正确 奇偶 校 验 值 。 在 这 个 例子 中 ，P0 也 必须 更 新 。 我 们 如 何 正确 
并 有 效 地 更 新 它 ? 








存在 两 种 方法 。 第 一 种 称 为 加 法 奇偶 校 验 (additive parity) ， 要 求 
我 们 做 以 下 工作 。 为 了 计算 新 奇偶 校 验 块 的 值 ， 并 行 读 取 条 带 中 所 有 
其 他 数据 块 《〈《 在 本 例 中 为 块 0(、2 和 3) ， 并 与 新 块 〈1) 进行 异 或 。 结 
果 是 新 的 校 验 块 。 为 了 完成 写 操作 ， 你 可 以 将 新 数据 和 新 奇偶 校 验 写 
入 其 各 上 自 的 磁盘 ， 也 是 并 行 写 入 。 


这 种 技术 的 问题 在 于 它 随 磁 盘 数 量 而 变化 ， 因 此 在 较 大 的 RAID 中 ， 需 
要 大 量 的 读 取 来 计算 奇偶 校 验 。 因 此 ， 导 导致 了 减法 奇偶 校 验 
(subtractive parity) 方法 。 


例如 ， 想 象 下 面 这 串 位 〈4 个 数据 位 ， 一 个 奇偶 校 验 位 ) : 


C0 CE C2 3 P 
0 0 1 1 XOR(0.0.1.1)=0 


想象 一 下 ， 我 们 希望 用 一 个 新 值 来 履 盖 C2 位 ， 称 之 为 C2,。,。 减 法 方法 
分 三 步 工作 。 首 先 ， 我 们 读 入 C2 〈C2.4 = 1) 和 旧 数 据 (Pi = 0) 
的 旧 数 据 。 


然后 ， 比 较 旧 数据 和 新 数据 。 如 果 它 们 相同 〈 例 如 ，C2,。， = 
C2,14，， 那 么 我 们 知道 奇偶 校 验 位 也 将 保持 相同 ( 即 Pi = Pi) 。 
但 是 ， 如 果 它 们 不 同 ， 那 么 我 们 必须 将 旧 的 奇偶 校 验 位 翻转 到 其 当前 
状态 的 相反 位 置 ， 也 就 是 说 ， 如 果 (Po1q == 0) ，Piew 将 被 设置 为 0。 
如 果 〈Pud == 0) ，Pnew 将 被 设置 为 1。 我 们 可 以 用 XOR〈 人 @ 是 XOR 运 算 
符 ) 漂亮 地 表达 完整 的 复杂 情况 : 


) @ Py (38.1) 














i 一 (Card 由 Chew 
由 于 所 处 理 的 是 块 而 不 是 位 ， 因 此 我 们 对 块 中 的 所 有 位 执行 此 计算 
《例如 ， 每 个 块 中 的 4096 个 字 节 乘 以 每 个 字 节 的 8 位 ) 。 在 大 多 数 情况 
下 ， 新 块 与 日 块 不 同 ， 因 此 新 的 奇偶 块 也 会 不 同 。 


你 现在 应 该 能 够 确定 何 时 使 用 加 法 奇偶 校 验 计算 ， 何 时 使 用 减法 方 
法 。 考 虑 系统 中 需要 多 少 个 磁盘 ， 导 致 加 法 方法 比 减法 方法 执行 更 少 
的 I[/0。 哪 里 是 交叉 后 ? 


对 于 这 里 的 性 能 分 析 ， 假 定 使 用 减法 方法 。 因 此 ， 对 于 每 次 写 入 ， 
RAID 必 须 执行 4 次 物理 I/0《〈 两 次 读 取 和 两 次 写 入 ) 。 现 在 想象 有 很 多 











提交 给 RAID 的 写 入 。RAID-4 可 以 并 行 执行 多 少 个 ?为 了 理解 ， 让 我 们 
再 看 一 下 RAID-4 的 布局 ( 见 表 38. 8) 。 


表 38.8 示例 : 写 入 4、13 和 对 应 奇偶 校 验 块 


， 


1 
8 ， |， | 


现在 想象 几乎 同时 间 RAID-4 提 交 2 个 小 的 请 求 ， 写 入 块 4 和 块 13〈 在 表 
38. 8 中 标 出 ) 。 


这 些 磁 盘 的 数据 位 于 磁盘 0 和 1 上 ， 因 此 对 数据 的 读 写 操作 可 以 并 行进 
行 ， 这 很 好 。 出 现 的 问题 是 奇偶 校 验 磁 盘 。 这 两 个 请 求 都 必须 读 取 4 和 
13 的 奇偶 校 验 块 ， 即 奇偶 校 验 块 1 和 3 〈 用 + 标记 ) 。 估 计 你 已 明白 了 这 
个 问题 : 在 这 种 类 型 的 工作 负载 下 ， 奇 个 校 验 磁 盘 是 瓶颈 。 因 此 我 们 
有 时 将 它 称 为 基于 奇偶 校 验 的 RAID 的 小 写 入 问题 (small-write 
problem) 。 因 此 ， 即 使 可 以 并 行 访问 数据 磁盘 ， 奇 偶 校 验 磁 盘 也 不 会 
实现 任何 并 行 。 由 于 奇偶 校 验 磁盘 ， 所 有 对 系统 的 写 操 作 都 将 被 序列 
化 。 由 于 奇 侦 校 验 人 磁盘 必须 为 每 个 逻辑 1/0 执 行 两 次 I/0〈 一 次 读 取 ， 
一 次 写 入 ) ， 我 们 可 以 通过 计算 奇偶 校 验 磁盘 在 这 两 个 I/0 上 的 性 能 3 
计算 RAID-4 中 的 小 的 随机 写 入 的 性 能 ， 从 而 得 到 (R / 2) MB/s。 随 机 
小 写 入 下 的 RAID-4 吞 吐 量 很 糟糕 ， 回 系统 添加 磁盘 也 不 会 改善 。 


我 们 最 后 来 分 析 RAID-4 中 的 IVX0 延 迟 。 你 现在 知道 ， 单 次 读 取 《 假 设 没 
有 失败 ) 只 映射 到 单个 磁盘 ， 因 此 其 延迟 等 同 于 单个 磁盘 请 求 的 延 
迟 。 单 次 写 入 的 延迟 需要 两 次 读 取 ， 然 后 两 次 写 入 。 读 操作 可 以 并 行 
进行 ， 写 操作 也 是 如 此 ， 因 此 总 延迟 大 约 是 单个 磁盘 的 两 倍 。 (有 一 
些 差 寞 ， 因 为 我 们 必须 等 竺 两 个 读 取 操作 完成 ， 所 以 会 得 到 最 差 的 定 
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位 时 间 ， 但 是 之 后 ， 更 新 不 会 导致 寻 道成 本 ， 因 此 可 能 是 比 平均 水 平 
更 好 的 定位 成 本 。) 


38.7 RAID 5 级 : 旋转 奇偶 校 验 


为 解决 小 写 入 问题 (至 少 部 分 解决 ) ，Patterson、Gibson 和 Katz 推 出 
了 RAID-5。RAID-5 的 工作 原理 与 RAID-4 几 乎 完全 相同 ， 只 是 它 将 奇偶 
校 验 块 跨 驱动 右 旋 转 ( 见 表 38.9) 。 


表 38.9 具有 旋转 奇偶 校 验 的 RAID-5 














4 se 


如 你 所 见 ， 每 个 条 带 的 奇偶 校 验 块 现在 都 在 磁盘 上 旋转 ， 以 消除 RAID- 
4 的 奇偶 校 验 磁盘 瓶颈 。 


RAID-5 分 析 





RAID-5 的 大 部 分 分 析 与 RAID-4 相 同 。 例 如 ， 两 级 的 有 效 容量 和 容错 能 
力 是 相同 的 。 顺 序 读 写 性 能 也 是 如 此 。 单 个 请 求 (无 论 是 读 还 是 写 ) 
的 延迟 也 与 RAID-4 相 同 。 


随机 读 取 性 能 稍 好 一 点 ， 因 为 我 们 可 以 利用 所 有 的 磁盘 。 最 后 ，RAID- 

4 的 随机 写 入 性 能 明显 提高 ， 因 为 它 允 许 跨 请 求 进行 并 行 处 理 。 想 象 一 

下 写 入 块 1 和 写 入 块 10。 这 将 变 成 对 磁盘 1 和 磁盘 4 〈 对 于 块 1 及 其 奇偶 

校 验 ) 的 请 求 以 及 对 磁盘 0 和 磁盘 2 〈 对 于 块 10 及 其 奇偶 校 验 ) 的 请 

求 。 因 此 ， 它 们 可 以 并 行进 行 。 事实 上 ， 我 们 通常 可 以 假设 ， 如 果 有 

大 量 的 随机 请 求 ， 我 们 将 能 够 保持 所 有 磁盘 均匀 忙碌 。 如 果 是 这 样 的 
N 


话 ， 那 么 我 们 用 于 小 写 入 的 总 带宽 将 是 4，。RR MB/s。4 倍 损失 是 由 于 每 
Ne 
RAID 的 成 本 。 


由 于 RAID-5 基 本 上 与 RAID-4 相 同 ， 只 是 在 少数 情况 下 它 更 好 ， 所 以 它 
几乎 完全 取代 了 市 场 上 的 RAID-4。 唯 一 没有 取代 的 地 方 是 系统 知道 自 
己 绝 不 会 执行 大 写 入 以 外 的 任何 事情 ， 从 而 完全 避免 了 小 写 入 问题 
[HLM94] 。 在 这 些 情况 下 ， 有 时 会 使 用 RAID-4， 因 为 它 的 构建 稍微 简单 


= 














38.8” RAID 比较 : 总 结 


现在 简单 总 结 一 下 表 38. 10 中 各 级 RAID 的 比较 。 请 注意 ， 我 们 省 略 了 一 
些 细节 来 简化 分 析 。 例 如 ， 在 镜像 系统 中 写 入 时 ， 平 均 查 找 时 间 比 写 
入 单个 人 磁盘 时 稍 高 ， 因 为 寻 道 时 间 是 两 个 寻 道 时 间 (每 个 磁盘 上 一 
个 ) 的 最 大 值 。 因 此 ， 对 两 个 磁盘 的 随机 写 入 性 能 通常 会 比 单个 磁盘 
的 随机 写 入 性 能 稍 差 。 此 外 ， 在 RAID-4/5 中 更 新 奇偶 校 验 磁 盘 时 ， 旧 
奇偶 校 验 的 第 一 次 读 取 可 能 会 导致 完全 寻 道 和 旋转 ， 但 第 二 次 写 入 奇 
侦 校 验 只 会 导致 旋转 。 


表 38. 10 ” RAID 容量 、 可 靠 性 和 性 能 
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但 是 ， 表 38. 10 中 的 比较 确实 抓 住 了 基本 差异 ， 对 于 理解 RAID 各 级 之 间 
的 折 中 很 有 用 。 对 于 延 坟 分析， 我 们 就 使 用 7 来 表示 对 则 个 开 帮 的 请 求 
需 的 时 间 。 


总 之 ， 如 果 你 严格 要 求 性 能 而 不 关心 可 靠 性 ， 那 么 条 带 显然 是 最 好 
的 。 但 是 ， 如 果 你 想 要 随机 1/0 的 性 能 和 可 靠 性 ， 镜 像 是 最 好 的 ， 你 付 
出 的 代价 是 容量 下 降 。 如 果 容 量 和 可 靠 性 是 你 的 主要 目标 ， 那 么 RAID- 
5 胜出 ， 你 付出 的 代价 是 小 写 入 的 性 能 。 最 后 ， 如 果 你 总 是 在 按 顺 序 执 
行 1/0 操 作 并 希望 最 大 化 容量 ， 那 么 RAID-5 也 是 最 有 意义 的 。 


用 
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38.9 其 他 有 趣 的 RAID 问 题 


还 有 一 些 其 他 有 趣 的 想法 ， 人 们 可 以 〈 并 且 应 该 ) 在 讨论 RAID 时 讨 
论 。 以 下 是 我 们 最 终 可 能 会 写 的 一 些 内 容 。 


例如 ， 还 有 很 多 其 他 RAID 设 计 ， 包 括 最 初 分 类 中 的 第 2 和 第 3 级 以 及 第 6 
级 可 容许 多 个 磁盘 故障 [C+04j] 。 还 有 RAID 在 磁盘 发 生 故 障 时 的 功能 ; 
有 了 时 它 会 有 一 个 热 备 用 (hot spare) 磁盘 来 替换 发 生 故 障 的 磁盘 。 发 
生 故 障 时 的 性 能 和 重建 故障 磁盘 期 间 的 性 能 会 发 生 什 么 变化 ? 还 有 更 
真实 的 故障 模型 ， 考 虑 潜在 的 扇 区 错误 (latent sector error) 或 块 
损坏 (block corruption) [B+08]， 以 及 处 理 这 些 故 障 的 许多 技术 
(详细 信息 参见 数据 完整 性 章节 ) 。 最 后 ， 甚 至 可 以 将 RAID 构 建 为 软 
人 Ce 但 有 其 他 问题 ， 包 括 一 致 更 新 问题 
DAA05」 。 








38. 10 小结 








我 们 讨论 了 RAID。RAID 将 大 量 独立 磁盘 扩充 成 更 大 、 更 可 靠 的 单一 实 
en 
\ 在 意 。 


有 很 多 可 能 的 RAID 级 别 可 供 选择 ， 使 用 的 确切 RAID 级 别 在 很 大 程度 上 
取决 于 最 终 用户 的 优先 级 。 例 如 ， 镜 像 RAID 是 简单 的 、 可 靠 的 ， 并 且 
通常 提供 良好 的 性 能 ， 但 是 容量 成 本 高 。 相 比 之 下 ，RAID-5 从 容量 

度 来 看 是 可 靠 和 更 好 的 ， 但 在 工作 负载 中 有 小 写 入 时 性 能 很 差 。 为 特 
定 工 作 负 载 正确 地 挑选 RAID 并 设置 其 参数 块 大 小 、 磁 盘 数 量 等 )， 
这 非常 具有 挑战 性 ， 更 多 的 是 艺术 而 不 是 科学 。 
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作业 


本 节 引 入 raid. py， 这 是 一 个 简单 的 RAID 模 拟 嚣 ， 你 可 以 使 用 它 来 增强 
你 对 RAID 系 统 工作 方式 的 了 解 。 详 情 请 参阅 README 文 件 。 


问题 


1. 使 用 模拟 器 执行 一 些 基 本 的 RAID 映 射 测试 。 运 行 不 同 的 级 别 (0、 
1、4、5) ， 看 看 你 是 否 可 以 找 出 一 组 请 求 的 映射 。 对 于 RAID-5， 看 看 
你 是 否 可 以 找 出 左 对 称 (left-symmetric) 和 左 不 对 称 (1left- 
asymmetric) 布局 之 间 的 区 别 。 使 用 一 些 不 同 的 随机 种 子 ， 产 生 不 同 
于 上 面 的 问题 。 


2. 与 第 一 个 问题 一 样 ， 但 这 次 使 用 -C 来 改变 大 块 的 大 小 。 大 块 的 大 小 
如 何 改变 映射 ? 


3. 执行 上 述 测试 ， 但 使 用 -+ 标志 来 反 转 每 个 问题 的 性 质 。 


4. 现在 使 用 反 转 标志 ， 但 用 -S 标 志 增 加 每 个 请 求 的 大 小 。 尝 试 指定 
8KB、12KB 和 16KB 的 大 小 ， 同 时 改变 RAID 级 别 。 当 请 求 的 大 小 增加 时 ， 
底层 1/0 模 式 会 发 生 什 么 ”请 务必 在 顺序 工作 负载 上 尝试 此 操作 (-W 
sequential ) 。 对 于 什么 请 求 大 小 ，RAID-4 和 RAID-5 的 I / 0 效率 更 
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[5 





5. 使 用 模拟 器 的 定时 模式 〈-t) 来 估计 100 次 随机 读 取 到 RAID 的 性 
能 ， 同 时 改变 RAID 级 别 ， 使 用 4 个 磁盘 。 


6. 按照 上 述 步 又 操作 ， 但 增加 磁盘 数量 。 随 着 磁盘 数量 的 增加 ， 每 个 
RAID 级 别 的 性 能 如 何 变化 ? 


7. 执行 上 述 操 作 ， 但 全 部 用 写 入 〈-w 100) ， 而 不 是 读 取 。 


每 个 RAID 级 别 的 性 能 现在 如 何 扩展 ?你 能 否 粗 咯 估计 完成 100 次 随机 写 
入 所 需 的 时 间 ? 


8. 最 后 一 次 运行 定时 模式 ， 但 是 这 次 用 顺序 的 工作 负载 (- 
sequential) 。 性 能 如 何 随 RAID 级 别 而 变化 ， 在 读 取 与 写 入 时 有 何不 
同 ? 如 何 改 变 每 个 请 求 的 大 小 ?使 用 RAID-4 或 RAID-5 时 应 该 写 入 RAID 
大 小 是 多 少 ? 








第 39 章 ”插手 : 文件 和 目录 


到 目前 为 止 ， 我 们 看 到 了 两 项 关键 操作 系统 技术 的 发 展 : 进程 ， 它 是 
虚拟 化 的 CPU; 地 址 空间 ， 它 是 虚拟 化 的 内 存 。 在 这 两 种 抽象 共同 作用 
下 ， 程 序 运行 时 就 好 像 它 在 自己 的 私有 独立 世界 中 一 样 ， 好 像 它 有 自 
己 的 处 理 器 《或 多 处 理 器 ) ， 好 像 它 有 自己 的 内 存 。 这 种 假象 使 得 对 
系统 编程 变 得 更 容易 ， 因 此 现在 不 仅 在 台式 机 和 服务 器 上 盛行 ， 而 且 
在 所 有 可 编程 平台 上 越 来 越 普 衣 ， 包 括 手 机 等 在 内 。 


在 这 一 部 分 ， 我 们 加 上 虚拟 化 拼图 中 更 关键 的 一 块 : 持久 存储 
(persistent storage) 。 永 久 存储 设备 永久 地 【或 至 少 长 时 间 地 ) 
存储 信息 ， 如 传统 硬盘 驱动 器 (hard disk drive) 或 更 现代 的 固态 存 
储 设 备 (solid-state storage device) 。 持 久 存 储 设 备 与 内 存 不 
同 。 内 存在 断 电 时 ， 其 内 容 会 丢失 ， 而 持久 存储 设备 会 保持 这 些 数据 
不 变 。 因 此 ， 操 作 系 统 必须 特别 注意 这 样 的 设备 : 用 户 用 它们 保存 真 
正 关心 的 数据 。 











关键 问题 : 如何 管理 持久 存储 设备 


操作 系统 应 该 如 何 管理 持久 存储 设备 ? 都 需要 哪些 API? 实现 
有 哪些 重要 方面 ? 





接 下 来 几 章 会 讨论 管理 持久 数据 的 一 些 关 键 技 术 ， 重 点 是 如 何 提高 性 
能 及 可 靠 性 。 但 是 ， 我 们 先 从 总 体 上 看 看 API: 你 在 与 UNIX 文 件 系统 交 
互 时 会 看 到 的 接口 。 


39.1 文件 和 目录 


随 着 时 间 的 推移 ， 存 储 虚 拟 化 形成 了 两 个 关键 的 抽象 。 第 一 个 是 文件 
(file) 。 文 件 就 是 一 个 线性 字 节 数组 ， 每 个 字 节 都 可 以 读 取 或 写 
入 。 每 个 文件 都 有 某 种 低级 名 称 (low-level name) ， 通 常 是 某 种 数 
字 。 用 户 通 常 不 知道 这 个 名 字 【我们 稍 后 会 看 到 ) 。 由 于 历史 原因 ， 
文件 的 低级 名 称 通 常 称 为 jnode 写 (inode number) 。 我 们 将 在 以 后 的 
章节 中 学 习 更 多 关于 inode 的 知识 。 现 在 ， 只 要 假设 每 个 文件 都 有 一 个 
与 其 关联 的 inode 号 。 


在 大 多 数 系统 中 ， 操 作 系 统 不 太 了 解 文件 的 结构 例如 ， 它 是 图 片 、 
文本 文件 还 是 C 代 码 ) 。 相 反 ， 文 件 系 统 的 贡 任 仅仅 是 将 这 些 数据 永久 
存储 在 磁盘 上 ， 并 确保 当 你 再 次 请 求 数据 时 ， 得 到 你 原来 放 在 那里 的 
内 容 。 做 到 这 一 点 并 不 像 看 起 来 那么 简单 ! 


第 二 个 抽象 是 目录 (directory) 。 一 个 目录 ， 像 一 个 文件 一 样 ， 也 有 
一 个 低级 名 字 〈 即 inode 号 ) ， 但 是 它 的 内 容 非 常 具 体 ， 它 包含 一 个 
(用 户 可 读 名 字 ， 低 级 名 字 ) 对 的 列表 。 例 如 ， 假 设 存 在 一 个 低级 别 
名 称 为 “10” 的 文件 ， 它 的 用 户 可 读 的 名 称 为 “foo”。“foo” 所 在 
的 目录 因此 会 有 和 条目 (“foo”，“10”) ， 将 用 户 可 读 名 称 映射 到 低 
级 名 称 。 目 录 中 的 每 个 条 目 都 指 癌 文 件 或 其 他 目录 。 通 过 将 目录 放 入 
其 他 目录 中 ， 用 户 可 以 构建 任意 的 目录 树 (directory tree， 或 目录 
层次 结构 ，directory hierarchy) ， 在 该 目录 树 下 存储 所 有 文件 和 目 
录 。 











目录 层次 结构 从 根 目 录 (root directory) 开始 (在 基于 UNIX 的 系统 
中 ， 根 目录 就 记 为 “/”) ， 并 使 用 某 种 分 隔 符 (separator) 来 命名 
后 续 子 目录 (sub-directories) ， 直 到 命名 所 需 的 文件 或 目录 。 例 
如 ， 如 果 用 户 在 根 目录 中 创建 了 一 个 目录 foo， 然 后 在 目录 foo 中 创建 
了 一 个 文件 bar.txt， 我 们 就 可 以 通过 它 的 绝对 路 径 名 〈absolute 
pathname ) 来 引用 该 文件 ， 在 这 个 例子 中 ， 它 将 是 /foo/bar. txt。 更 
复杂 的 目录 树 ， 请 参见 图 39.1。 示 例 中 的 有 效 目 录 
是 /，/foo，/bar，/bar/bar，/bar/foo， 有 效 的 文件 是 /foo/bar. txt 
和 /bar/foo/bar. txt。 目 录 和 文件 可 以 具有 相同 的 名 称 ， 只 要 它们 位 
于 文件 系统 树 的 不 同位 置 ( 例 如， 图 中 有 两 个 名 为 bar. txt 的 文 
件 : /foo/bar. txt 和 /bar/foo/bar. txt) 。 
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提示 : 请 仔细 考虑 命名 


bar 


bar too 


bartxt 








目录 树 示例 











命名 是 计算 机 系统 的 一 个 重要 方面 [SK09] 。 在 UNIX 系 统 中 ， 
你 几乎 可 以 想到 的 所 有 内 容 都 是 通过 文件 系统 命名 的 。 除 了 
文件 、 设 备 、 管 道 ， 甚 至 进程 区 84] 都 可 以 在 一 个 看 似 普通 的 
旧 文 件 系统 中 看 到 。 这 种 命名 的 一 致 性 简化 了 系统 的 概念 模 
型 ， 使 系统 更 简单 、 更 模块 化 。 因 此 ， 无 论 何 时 创建 系统 或 
接口 ， 都 要 仔细 考虑 你 使 用 的 是 什么 名 称 。 





你 可 能 还 会 注意 到 ， 这 个 例子 中 的 文件 名 通常 包含 两 部 分 : bar 和 
txt， 以 句点 分 隔 。 第 一 部 分 是 任意 名 称 ， 而 文件 名 的 第 二 部 分 通常 用 
于 指示 文件 的 类 型 (type) ， 例 如 ， 它 是 C 代 码 〈 例 如 .c) 还 是 图 像 
(例如 . jpg) ， 或 音乐 文件 〈 例 如 .mp3) 。 然 而 ， 这 通常 只 是 一 个 惯 
例 〈convention) : 一 般 不 会 强制 名 为 main. c 的 文件 中 包含 的 数据 确 
实 是 C 源 代码 。 


因此 ， 我 们 可 以 看 到 文件 系统 提供 的 了 不 起 的 东西 : 一 种 方便 的 方式 
来 命名 我 们 感 兴 趣 的 所 有 文件 。 名 称 在 系统 中 很 重要 ， 因 为 访问 任何 
资源 的 第 一 步 是 能 够 命名 它 。 在 UNIX 系 统 中 ， 文 件 系统 提供 了 一 种 统 
一 的 方式 来 访问 磁盘 、U 盘 、CD-ROM、 许 多 其 他 设备 上 的 文件 ， 事 实 上 
还 有 很 多 其 他 的 东西 ， 都 位 于 单一 目录 树 下 。 





39.2 文件 系统 接口 


现在 让 我 们 更 详细 地 讨论 文件 系统 接口 。 我 们 将 从 创建 、 访 问 和 删除 
文件 的 基础 开始 。 你 可 能 会 认为 这 很 简单 ， 但 在 这 个 过 程 中 ， 你 会 发 
现 用 于 删除 文件 的 神秘 调用 ， 称 为 unlink0 。 希 望 阅读 本 章 之 后 ， 你 
不 再 困惑 ! 





39.3 创建 文件 


我 们 将 从 最 基本 的 操作 开始 : 创建 一 个 文件 。 这 可 以 通过 open 系 统 调 
用 完成 。 通 过 调用 open 0 并 传 入 0_CREAT 标 志 ， 程 序 可 以 创建 一 个 新 文 
人 


int fd = open("foo", O CREAT | O WRONLY | OO TRUNC); 





函数 open() 接受 一 些 不 同 的 标志 。 在 本 例 中 ， 程 序 创建 文件 
(0_CREAT) ， 只 能 写 入 该 文件 ， 因 为 以 (0_WRONLY)〉 这 种 方式 打开 ， 
并 且 如 果 该 文件 已 经 存在 ， 则 首先 将 其 截断 为 零 字 节 大 小 ， 删 除 所 有 
现 有 内 容 (0_TRUNC) 。 








补充 : creat () 系统 调用 
创建 文件 的 旧 方 法 是 调用 creat ()， 如 下 所 示 : 


int fd = creat ("foo"); 


你 可 以 认为 creat() 是 open(0 加 上 以 下 标志 : 0_CREAT | 

0_WRONLY | 0_TRUNC。 因为 open 0 〇 可 以 创建 一 个 文件 ， 所 以 

creat () 的 用 法 有 些 失 宠 ( 实 际 上 ， 它 可 能 就 是 实现 为 对 

open (0 的 一 个 库 调 用 ) 。 然 而 ， 它 确实 在 UNIX 知 识 中 占有 一 

席 之 地 。 特 别 是 ， 有 人 兽 问 Ken Thompson， 如 果 他 重新 设计 

We lS 
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open() 的 一 个 重要 方面 是 它 的 返回 值 : 文件 描述 符 (file 
descriptor ) 。 文 件 描述 符 只 是 一 个 整数 ， 是 每 个 进程 私有 的 ， 在 
UNIX 系 统 中 用 于 访问 文件 。 因 此 ， 一 旦 文件 被 打开 ， 你 就 可 以 使 用 文 
件 描述 符 来 读 取 或 写 入 文件 ， 假 定 你 有 权 这 样 做 。 这 样 ， 一 个 文件 描 
述 符 就 是 一 种 权限 (capability) [L84]， 即 一 个 不 透明 的 句柄 ， 它 可 
以 让 你 执行 某 些 操作 。 另 一 种 看 竺 文件 摘 述 符 的 方法 ， 是 将 它 作 为 指 
同文 件 类 型 对 象 的 指针 。 一 旦 你 有 这 样 的 对 象 ， 束 可 以 调用 其 他 “ 方 





法 ”来 访问 文件 ， 如 read ( 和 write() 。 下 面 你 会 看 到 如 何 使 用 文件 描 
述 符 。 


39.4 读 写 文件 


一 旦 我 们 有 了 一 些 文件 ， 当 然 就 会 想 要 读 取 或 写 入 。 我 们 先 读 取 一 个 
现 有 的 文件 。 如 果 在 命令 行 键入 ， 我 们 就 可 以 用 cat 程 序 ， 将 文件 的 内 
容 显示 到 屏幕 上 。 


prompt> echo hello > foo 
prompt> cat foo 

hello 

prompt> 


在 这 段 代码 中 ， 我 们 将 程序 echo 的 输出 重 定 癌 到 文件 foo， 然 后 文件 中 
就 包含 单词 “hello”。 然 后 我 们 用 cat 来 查看 文件 的 内 容 。 但 是 ，cat 
程序 如 何 访问 文件 foo? 


为 了 弄 清 楚 这 个 问题 ， 我 们 将 使 用 一 个 非常 有 用 的 工具 ， 来 跟踪 程序 
所 做 的 系统 调用 。 在 Linux 上 ， 该 工具 称 为 strace。 其 他 系统 也 有 类 似 
的 工具 (参见 mac0S X 上 的 dtruss， 或 某 些 较 早 的 UNIX 变 体 上 的 
truss) 。strace 的 作用 就 是 跟踪 程序 在 运行 时 所 做 的 每 个 系统 调用 ， 
然后 将 跟踪 结果 显示 在 屏幕 上 供 你 查看 。 


提示 : 使 用 strace (和 类 似 工 具 ) 


strace 工 具 提 供 了 一 种 非常 棒 的 方式 ， 来 查看 程序 在 做 什 
么 。 通 过 运行 它 ， 你 可 以 跟踪 程序 生成 的 系统 调用 ， 查 看 参 
数 和 返回 代码 ， 通 常 可 以 很 好 地 了 解 正在 发 生 的 事情 。 


该 工具 还 接受 一 些 非常 有 用 的 参数 。 例 如 ，-f 跟 踪 所 有 fork 
的 子 进 程 ，-t 报 告 每 次 调用 的 时 间 ， -e 
trace=open, close, read, write 只 跟踪 对 这 些 系 统 调 用 的 调 











用 ， 并 忽略 所 有 其 他 调用 。 还 有 许多 更 强大 的 标志 ， 请 阅读 
手册 页 ， 弄 清楚 如 何 利用 这 个 奇妙 的 工具 。 


下 面 是 一 个 例子 ， 使 用 strace 来 找 出 cat 在 做 什么 〈 为 了 可 读 性 删除 了 


一 些 调 用 ) 。 


prompt> strace cat foo 





open ("foo", O RDONLY|O LARGEFILE) 











= 3 
read(3, "hello\n", 4096) = 6 
write(l, "hello\n", 6) = 6 
hello 
read (3, "", 4096) = 0 
close (3) = 0 
prompt> 





cat 做 的 第 一 件 事 是 打开 文件 准备 读 取 。 我 们 应 该 注意 几 件 事情 。 
先 ， 该 文件 仅 为 读 取 而 打开 (不 写 入 ) ， 如 0_RDONLY 标 志 所 示 。 
次 ， 使 用 64 位 偏 移 量 (0 _ LARGEFILE) 。 最 后 ，open () 调用 成 功 并 返回 
一 个 文件 描述 符 ， 其 值 为 3。 


你 可 能 会 想 ， 为 什么 第 一 次 调用 open 0) 会 返回 3， 而 不 是 0 或 1? 事实 证 
明 ， 每 个 正在 运行 的 进程 已 经 打 开 了 3 个 文件 ;标准 输入 《进程 可 以 读 
取 以 接收 输入 ) ， 标 准 输 出 (进程 可 以 写 入 以 便 将 信息 显示 到 屏 
幕 ) ， 以 及 标准 错误 (进程 可 以 写 入 错误 消息 ) 。 这 些 分 别 由 文件 描 
述 符 0、1 和 2 表示 。 因 此 ， 当 你 第 一 次 打开 另 一 个 文件 时 〈 如 上 例 所 
示 ) ， 它 几乎 肯定 是 文件 描述 符 3。 


打开 成 功 后 ，cat 使 用 read() 系统 调用 重复 读 取 文件 中 的 一 些 字 节 。 
read() 的 第 一 个 参数 是 文件 描述 符 ， 从 而 告诉 文件 系统 读 取 哪个 文 
件 。 一 个 进程 当然 可 以 同时 打开 多 个 文件 ， 因 此 摘 述 符 使 操作 系统 能 
够 知道 菜 个 特定 的 读 取 引用 了 哪个 文件 。 第 二 个 参数 指 同 一 个 用 于 放 
置 read 0 结果 的 缓冲 区 。 在 上 面 的 系统 调用 跟踪 中 ，strace 显 示 了 这 
时 的 读 取 结果 (“hello”) 。 第 三 个 参数 是 缓冲 区 的 大 小 ， 在 这 个 例 
子 中 是 4KB。 对 read 0 的 调用 也 成 功 返 回 ， 这 里 返回 它 读 取 的 字 节 数 
(6， 其 中 包括 “hello” 中 的 5 个 字母 和 一 个 行 尾 标记 ) 。 


此 时 ， 你 会 看 到 strace 的 另 一 个 有 趣 结果 : 对 write 系统 调用 的 一 次 
调用 ， 针 对 文件 描述 符 1。 如 上 所 述 ， 此 描述 符 被 称 为 标准 输出 ， 因 此 


闭环 

















用 于 将 单词 “Hello” 写 到 屏幕 上 ， 这 正 是 cat 程 序 要 做 的 事 。 但 是 它 
直接 调用 write(O 吗 ? 也 许 〈 如 果 它 是 高 度 优化 的 ) 。 但 是 ， 如 果 不 
是 ， 那 么 可 能 会 调用 库 例 程 pbrintf() 。 在 内 部 ，printf 0 会 计算 出 传 
We 
到 碾 。 


然后 ，cat 程 序 试图 从 文件 中 读 取 更 多 内 容 ， 但 由 于 文件 中 没有 剩余 字 
节 ，teadO 返 回 0， 程 序 知道 这 意味 着 它 已 经 读 取 了 整个 文件 。 因 此 ， 
程序 调用 closeO， ， 传 入 相应 的 文件 描述 符 ， 表 明 它 已 用 完 文件 
“foo”。 该 文件 因此 被 关闭 ， 对 它 的 读 取 完成 了 。 


写 入 文件 是 通过 一 组 类 似 的 步骤 完成 的 。 首 先 ， 打 开 一 个 文件 准备 写 
入 ， 然 后 调用 write () 系统 调用 ， 对 于 较 大 的 文件 ， 可 能 重复 调用 ， 然 
后 调用 close () 。 使 用 strace 追 踪 写 入 文件 ， 也 许 针 对 你 自己 编写 的 程 
序 ， 或 者 追踪 dd 实用 程序 ， 例 如 dd if = foo of = bar。 

















39.5 读 取 和 写 入 ， 但 不 按 顺序 


到 目前 为 止 ， 我 们 已 经 讨论 了 如 何 读 取 和 写 入 文件 ， 但 所 有 访问 都 是 
顺序 的 〈sequential ) 。 也 就 是 说 ， 我 们 从 头 到 尾 读 取 一 个 文件 ， 或 
者 从 头 到 尾 写 一 个 文件 。 


但 是 ， 有 时 能 够 读 取 或 写 入 文件 中 的 特定 偏 移 量 是 有 用 的 。 例 如 ， 如 
果 你 在 文本 文件 上 构建 了 索引 并 利用 它 来 查找 特定 单词 ， 最 终 可 能 会 
从 文件 中 的 某 些 随机 (random) 偏 移 量 中 读 取 数据 。 为 此 ， 我 们 将 使 
用 lseek 0 系统 调用 。 下 面 是 函数 原型 : 


off 七 lseek(int fildes, off t offset, int whence);} 














第 一 个 参数 是 熟悉 的 一 个 文件 描述 符 )。 第 二 个 参数 是 仿 移 量 ， 它 
将 文件 仿 移 量 定位 到 文件 中 的 特定 位 置 。 第 三 个 参数 ， 由 于 历史 原因 
而 被 称 为 whence， 明 确 地 指定 了 搜索 的 执行 方式 。 以 下 摘自 手册 页 : 

If whence is SEEK SET, the offset is set to offset bytes . 


If whence is SEEK CUR, the offset is set to its current 
location plus offset bytes. 















































If whence is SEEK END, the offset is set to the Size of 
the file plus offset bytes. 


从 这 段 描述 中 可 见 ， 对 于 每 个 进程 打开 的 文件 ， 操 作 系 统 都 会 跟踪 一 
个 “当前 ” 仿 移 量 ， 这 将 决定 在 文件 中 读 取 或 写 入 时 ， 下 一 次 读 取 或 
写 入 开始 的 位 置 。 因 此 ， 打 开 文件 的 抽象 包括 它 具 有 当前 偏 移 量 ， 偏 
移 量 的 更 新 有 两 种 方式 。 第 一 种 是 当 发 生 W 个 字 贡 的 读 或 写 时 ，AW 补 添 
加 到 当前 偏 移 。 因 此 ， 每 次 读 取 或 写 入 都 会 隐 式 更 新 偏 移 量 。 第 二 种 
是 明确 的 lseek， 它 改变 了 上 面 指定 的 偏 移 量 。 





补充 : 调用 lseek 0 不 会 执行 磁盘 寻 道 


命名 糟糕 的 系统 调用 lseek 0 让 很 多 学 生 困 惑 ， 试 图 去 理解 磁 
盘 以 及 其 上 的 文件 系统 如 何 工 作 。 不 要 混 消 二 者 ! lseek 0 〇 0 调 
用 只 是 在 0S 内 存 中 更 改 一 个 变量 ， 该 变量 跟踪 特定 进程 的 下 
一 个 读 取 或 写 入 开始 的 偏 移 量 。 如 果 发 送 到 磁盘 的 读 取 或 写 
入 与 最 后 一 次 读 取 或 写 入 不 在 同一 磁道 上 ， 就 会 发 生 磁盘 寻 
道 ， 因 此 需要 磁头 移动 。 更 令 人 困惑 的 是 ， 调 用 lseek 0 从 文 
件 的 随机 位 置 读 取 或 写 入 文件 ， 然 后 读 取 / 写 入 这 些 随机 位 
置 ， 确 实 会 导致 更 多 的 磁盘 寻 道 。 因 此 ， 调 用 lseek () 肯定 会 
导致 在 即将 进行 的 读 取 或 号 入 中 进行 搜索 ， 但 绝对 不 会 导致 
任何 磁盘 IZ0 自 动 发 生 。 





请 注意 ， 调 用 1seek (与 移动 磁盘 辟 的 磁盘 的 寻 道 (seek) 操作 无 关 。 
对 lseek 0 的 调用 只 是 改变 内 核 中 变量 的 值 。 执 行 1/0 时 ， 根 据 磁盘 头 
的 位 置 ， 磁 盘 可 能 会 也 可 能 不 会 执行 实际 的 寻 道 来 完成 请 求 。 


39.6 用 fsync () 立即 写 入 


大 多 数 情况 下 ， 当 程序 调用 write 时 ， 它 只 是 告诉 文件 系统 : 请 在 将 
来 的 某 个 时 刻 ， 将 此 数据 写 入 持久 存储 。 出 于 性 能 的 原因 ， 文 件 系统 
会 将 这 些 写 入 在 内 存 中 缓冲 (buffer) 一 段 时 间 (例如 5s 或 30s) 。 在 


稍 后 的 时 间 点 ， 写 入 将 实际 发 送 到 存储 设备 。 从 调用 应 用 程序 的 角度 
来 看 ， 写 入 似乎 很 快 完 成 ， 并 且 只 有 在 极 少 数 情况 下 例如 ， 在 
write W 调 用 之 后 但 写 入 磁盘 之 前 ， 机 器 般 溃 ) 数据 会 丢失 。 


但 是 ， 有 些 应 用 程序 需要 的 不 只 是 这 种 保证 。 例 如 ， 在 数据 库 管理 系 
统 CDBMS) 中 ， 开 发 正确 的 恢复 协议 要 求 能 够 经 常 强制 写 入 磁盘 。 


为 了 文 持 这 些 关 型 的 应 用 程序 ， 大 多 数 文 件 系 统 者 提供 了 一 些 额 外 的 
控制 API。 在 UNIX 中 ， 提 供给 应 用 程序 的 接口 被 称 为 fsync (int fd) 。 
当 进 程 针 对 特定 文件 描述 符 调 用 fsync\) 时 ， 文 件 系 统 通过 强制 将 所 有 
脏 (dirty)〉 数据 《“ 即 尚未 写 入 的 ) 写 入 磁盘 来 啊 应 ， 针 对 指定 文件 描 
述 符 引用 的 文件 。 一 旦 所 有 这 些 写 入 完成 ，fsync () 例 程 就 会 返回 。 


以 下 是 如 何 使 用 fsync 0 的 简单 示例 。 代 码 打开 文件 foo， 向 它 写 入 一 
个 数据 块 ， 然 后 调用 fsync 0 以 确保 立即 强制 写 入 磁盘 。 一 旦 fsync 0 
返回 ， 应 用 程序 就 可 以 安全 地 继续 前 进 ， 知 道 数 据 已 被 保存 (如 果 
fsync () 实现 正确 ， 那 就 是 了 ) 。 

int fd = open("foo", O CREAT | O WRONLY | O TRUNC); 


assert (fd > -1); 
int rc = write(fd, buffer, size); 

















assert (rc == size); 
rc = fsync(fd); 
assert (rc == 0) ， 


有 趣 的 是 ， 这 段 代码 并 不 能 保证 你 所 期 望 的 一 切 。 在 某 些 情况 下 ， 还 
需要 fsync 0) 包含 foo 文 件 的 目录 。 添 加 此 步骤 不 仅 可 以 确保 文件 本 身 
位 于 磁盘 上 ， 而 且 可 以 确保 文件 《如果 新 创建 ) 也 是 目录 的 一 部 分 。 
总 不 奇怪 ， 这 种 细节 往往 被 包 略 ， 导 到 许多 应 用 程序 级 别 的 错 训 
P+13j。 





39.7 文件 重 命名 





有 了 一 个 文件 后 ， 有 时 需要 给 一 个 文件 一 个 不 同 的 名 字 。 在 命令 行 键 
入 时 ， 这 是 通过 mv 命令 完成 的 。 在 下 面 的 例子 中 ， 文 件 foo 被 重 命名 为 


bar。 








prompt> mv foo bar 


利用 strace， 我 们 可 以 看 到 mv 使 用 了 系统 调用 rename (char * old, 
char * new) ， 它 只 需要 两 个 参数 : 文件 的 原来 名 称 (ol1d)〉 和 新 名 称 


(new) 。 


rename() 调用 提供 了 一 个 有 趣 的 保证 : 它 (通常 ) 是 一 个 原子 
(atomic) 调用 ， 不 论 系统 是 否 骨 训 。 如 果 系 统 在 重 命 名 期 间 朋 泪 ， 
文件 将 被 命名 为 旧名 称 或 新 名 称 ， 不 会 出 现 奇 怪 的 中 间 状 态 。 因 此 ， 
On rename () 非 
常 。 


让 我 们 更 具体 一 点 。 想 象 一 下 ， 你 正在 使 用 文件 编辑 器 (例如 
emacs ) ， 并 将 一 行 插 入 到 文件 的 中 间 。 例 如 ， 该 文件 的 名 称 是 
foo. txt。 编 辑 嚣 更 新 文件 并 确保 新 文件 包含 原 有 内 容 和 插入 行 的 方式 
如 下 《〈 为 简单 起 见 ， 忽 略 错误 检查 ) : 














int fd = open("foo.txt.tmp", O WRONLY|O CREAT|O TRUNC); 





writel(fd, buffer, size); // write out new version of file 
fsync (fd); 

close (fd); 

rename ("foo.txt.tmp", "foo.txt"); 


在 这 个 例子 中 ， 编 辑 器 做 的 事 很 简单 :将 文件 的 新 版 本 写 入 临时 名 称 
(foot. txt. tmp〉， 使 用 fsync 将 其 强制 写 入 磁盘 。 然 后 ， 当 应 用 程 
序 确定 新 文件 的 元 数据 和 内 容 在 磁盘 上 ， 就 将 临时 文件 重 命名 为 原 有 
文件 的 名 称 。 最 后 一 步 自动 将 新 文件 交换 到 位 ， 同 时 删除 旧版 本 的 文 
件 ， 从 而 实现 原子 文件 更 新 。 


39.8 获取 文件 信息 











除了 文件 访问 之 外 ， 我 们 还 希望 文件 系统 能 够 保存 天 于 它 正在 存储 的 
每 个 文件 的 大 量 信 息 。 我 们 通常 将 这 些 数据 称 为 文件 元 数据 
Cmetadata) 。 要 查看 特定 文件 的 元 数据 ， 我 们 可 以 使 用 stat 0 或 
fstat () 系 统 调用 。 这 些 调 用 将 一 个 路 径 名 《或 文件 描述 符 ) 添加 到 一 
个 文件 中 ， 并 填充 一 个 stat 结 构 ， 如 下 所 示 : 








struct stat 1{ 
dev t st _ dev; /* ID of device containing file */ 
ino t st ino; /* inode number */ 
mode t st mode; /* protection */ 
nlink 七 st nlink; /* number of hard links */ 
uiqd t st uid; /* user ID of owner */ 
gid t st. :gid; /* group ID of owner */ 
dev t st rdev; /* device ID (if special file) */ 
(ess i st size; /* total size, in bytes */ 
blksize t st blksize; /* blocksize for filesystem I/O */ 
blkcnt t st blocks; /* number of blocks allocated */ 
time t st atime; /* tine of last access */ 
time t st mtime; /* time of last modification */ 
time t st_ctime; /* time of last status change */ 





你 可 以 看 到 有 关于 每 个 文件 的 大 量 信 息 ， 包 括 其 大 小 (以 字 节 为 单 
位 ) ， 其 低级 名 称 ( 即 inode 号 ) ， 一 些 所 有 权 信 息 以 及 有 关 何 时 文件 
被 访问 或 修改 的 些 信息 ， 等 等 。 要 查看 此 信息 ， 可 以 使 用 命令 行 工 
具 stat: 











prompt> echo hello > file 
prompt> stat file 
File: 'file' 


Size: 6 Blocks: 8 IO Block: 4096 regular file 
Device: 811h/2065d Inode: 67158084 LinkKks;: 1 
Access: (0640/-rw-r-----— ) Uid: (30686/ remzi) Gid: (30686/ remzi) 


Access;: 2011=05=03 15:50%20,.157594748 =0300 
Modify: 2011=05=03 15:;50:;20.157594748 =0500 
Change: 2011=03=03 15550320.157594748 =0500 








事实 表明 ， 每 个 文件 系统 通常 将 这 种 类 型 的 信息 保存 在 一 个 名 为 
inodel 直 的 结构 中 。 当 我 们 讨论 文件 系统 的 实现 时 ， 会 学 习 更 多 关于 
inode 的 知识 。 就 目前 而 言 ， 你 应 该 将 inode 看 作 是 由 文件 系统 保存 的 
持久 数据 结构 ， 但 舍 上 上 述 信 息 。 





39.9 删除 文件 


现在 ， 我 们 知 站 了 如 何 创建 文件 并 按 顺 序 访问 它们 。 但 是， 如何 删除 
文件 ? 如 果 用 过 UNIX， 你 可 能 认为 你 知道 : 只 需 运行 程序 rm。 但 是 ， 
人 





我 们 再 次 使 用 老 朋 友 strace 来 找 出 答案 。 下 面 删除 那个 讨厌 的 文件 


“foo” : 


prompt> strace rm foo 


nlLink ("EoG.) = 0 


我 们 从 跟踪 的 输出 中 删除 了 一 堆 不 相关 的 内 容 ， 只 留 下 一 个 神秘 名 称 
的 系统 调用 unlink() 。 如 你 所 见 ，unlink(O 只 需要 待 删除 文件 的 名 
称 ， 并 在 成 功 时 返回 零 。 但 这 引出 了 一 个 很 大 的 疑问 : 为 什么 这 个 系 
统 调用 名 为 “unlink”? 为 什么 不 就 是 “remove” 或 “delete”? 要 
理解 这 个 问题 的 答案 ， 我 们 不 仅 要 先 了 解 文 件 ， 还 有 目录 。 





39. 10 ”创建 目录 


除了 文件 外 ， 还 可 以 使 用 一 组 与 目录 相关 的 系统 调用 来 创建 、 读 取 和 
删除 目录 。 请 注意 ， 你 永远 不 能 直接 写 入 目录 。 因 为 目录 的 格式 被 视 
为 文件 系统 元 数据 ， 所 以 你 只 能 间接 更 新 目录 ， 例 如 ， 通 过 在 其 中 创 
建文 件 、 目 录 或 其 他 对 象 类 型 。 通 过 这 种 方式 ， 文 件 系 统 可 以 确保 目 
录 的 内 容 始终 符合 预期 。 

要 创建 目录 ， 可 以 用 系统 调用 mkdir () 。 同 名 的 mkdir 程 序 可 以 用 来 创 
建 这 样 一 个 目录 。 让 我 们 看 一 下 ， 当 我 们 运行 mkdir 程 序 来 创建 一 个 名 
为 foo 的 简单 目录 时 ， 会 发 生 什 么 : 


prompt> strace mkdir foo 














mkdir("fo60", O0777) = 0 


prompt> 


提示 : 小 心 强大 的 命令 


程序 rm 为 我 们 提供 了 强大 命令 的 一 个 好 例子 ， 也 说 明 有 时 太 
多 的 权利 可 能 是 一 件 坏事 。 例 如 ， 要 一 次 删除 一 堆 文 件 ， 可 





以 键入 如 下 内 容 : 


prompt> rm * 





其 中 # 将 匹配 当前 目录 中 的 所 有 文件 。 但 有 时 你 也 想 删 除 目 
录 ， 实 际 上 包括 它们 的 所 有 内 容 。 你 可 以 告诉 rm 以 递归 方式 
进入 每 个 目录 并 删除 其 内 容 ， 从 而 完成 此 操作 : 


prompt> rm =Ff * 





如 果 你 发 出 命令 时 碰巧 是 在 文件 系统 的 根 目录 ， 从 而 删除 了 
所 有 文件 和 目录 ， 这 一 小 串 字 符 会 给 你 带 来 麻烦 。 慌 呀 ! 


因此 ， 要 记 住 强 大 的 命令 是 双 刃 剑 。 虽 然 它们 让 你 能 够 通过 
nn 
和 伤害。 





这 样 的 目录 创建 时 ， 它 被 认为 是 “ 空 的 ”， 尺 管 它 实际 上 包含 最 少 的 
内 容 。 具 体 来 说 ， 空 目录 有 两 个 条 目 : 一 个 引用 自身 的 条 目 ， 一 个 引 
用 其 父 目 录 的 条 目 。 前 者 称 为 “.” 点 ) 目录， 后 者 称 为 “..” 
(点 -点 ) 目录 。 你 可 以 通过 向 程序 1s 传 递 一 个 标志 〈-a) 来 查看 这 些 
目录 


prompt> ls -a 
/ 





prompt> ls -al 


total 8 
drwxr-x--- 2 remzi remzi 6 Apr 30 16:17 ./ 
drwxr-x--- 26 remzi remzi 4096 Apr 30 16:17 ../ 


39.11 读 取 目录 


既然 我 们 创建 了 目录 ， 也 可 能 希望 读 取 目录 。 实 际 上 ， 这 正 是 1s 程 序 
做 的 事 。 让 我 们 编写 像 1s 这 样 的 小 工具 ， 看 看 它 是 如 何 做 的 。 








不 是 像 打开 文件 一 样 打开 一 个 目录 ， 而 是 使 用 一 组 新 的 调用 。 下 面 是 
一 个 打印 目录 内 容 的 示例 程序 。 该 程序 使 用 了 opendir () 、readdit () 
和 closedir() 这 3 个 调用 来 完成 工作 ， 你 可 以 看 到 接口 有 多 简单 。 我 们 
只 需 使 用 一 个 简单 的 循环 就 可 以 一 次 读 取 一 个 目录 和 条目， 并 打印 目录 
中 每 个 文件 的 名 称 和 inode 编 号 。 


int main (int argc, char *argv[]) { 
DIR *dp = opendir("."); 


assert(dp != NULL); 
struct dirent *qd; 
while ((d = readdir(dp)) != NULL) { 
printf("%d %s\n", (int) d->d ino, d->d name); 


} 
closedir (dp); 
return 0; 











I dirent 数 据 结 构 中 ， 展 示 了 每 个 目录 条 目 中 可 用 


struct dirent { 


char d name[256]; /* filename */ 

ino 七 d_ino; /* inode number */ 

OF 七 d off; /* offset to the. next ‘dirent */ 
unsigned short qd reclen; /* length of this record */ 
unsigned char qd type; /* type of file */ 











由 于 目录 只 有 少量 的 信息 (基本 上 ， 只 是 将 名 称 映 射 到 inode 号 ， 以 及 
少量 其 他 细节 ) ， 程 序 可 能 需要 在 每 个 文件 上 调用 stat () 以 获取 每 个 
文件 的 更 多 信息 ， 例 如 其 长 度 或 其 他 详细 信息 。 实 际 上 ， 这 正 是 1s 带 
有 -1 标志 时 所 做 的 事情 。 请 试 着 对 带 有 和 不 带 有 -1 标志 的 1s 运 行 
strace， 自 己 看 看 结果 。 























39.12 删除 目录 


最 后 ， 你 可 以 通过 调用 rmdir 0 来 删除 目录 〈( 它 由 相同 名 称 的 程序 
rmdir 使 用 ) 。 然 而 ， 与 删除 文件 不 同 ， 删 除 目录 更 加 危险 ， 因 为 你 可 
以 使 用 单个 命令 删除 大 量 数据 。 因 此 ，rmdir () 要 求 该 目录 在 被 删除 之 


前 是 空 的 (只 有 “. ”和 “..” 和 条目) 。 如 果 你 试图 删除 一 个 非 空 目 
录 ， 那 么 对 rmdir() 的 调用 就 会 失败 。 


39. 13” 硬 链接 


我 们 现在 回 到 为 什么 删除 文件 是 通过 unlink 0 的 问题 ， 理 解 在 文件 系 
统 树 中 创建 条 目的 新 方法 ， 即 通过 所 谓 的 link( 系统 调用 。1link() 系 
统 调用 有 两 个 参数 : 一 个 旧 路 径 名 和 一 个 新 路 径 名 。 当 你 将 一 个 新 的 
文件 名 “链接 ”到 一 个 旧 的 文件 名 时 ， 你 实际 上 创建 了 男 一 种 引用 同 
一 个 文件 的 方法 。 命 令 行 程序 ln 用 于 执行 此 操作 ， 如 下 面 的 例子 所 
Ns: 


prompt> cat file2 
hello 


在 这 里 ， 我 们 创建 了 一 个 文件 ， 其 中 包含 单词 “hello”， 并 称 之 为 
file。 然 后 ， 我 们 用 ln 程序 创建 了 该 文件 的 一 个 硬 链 接 。 在 此 之 后 ， 
我 们 可 以 通过 打开 file 或 file2 来 检查 文件 。 


1ink 只 是 在 要 创建 链接 的 目录 中 创建 了 另 一 个 名 称 ， 并 将 其 指向 原 有 
文件 的 相同 inode 号 〈 即 低级 别名 称 ) 。 该 文件 不 以 任何 方式 复制 。 相 
反 ， 你 现在 就 有 了 两 个 人 类 可 读 的 名 称 (file 和 file2) ， 都 指向 同一 


FARA 


prompt> 1s -i file file2 
67158084 file 

67158084 file2 

prompt> 


通过 带 -i 标 志 的 ls， 它 会 打印 出 每 个 文件 的 inode 编 号 (以 及 文件 
名 ) 。 因 此 ， 你 可 以 看 到 实际 上 已 完成 的 链接 : 只 是 对 同一 个 inode 号 
(本 例 中 为 67158084) 创建 了 新 的 引用 。 


现在 ， 你 可 能 已 经 开始 明白 unlink (名称 的 由 来 。 创 建 一 个 文件 时 ， 
实际 上 做 了 两 件 事 。 首 先 ， 要 构建 一 个 结构 (inode ) ， 它 将 跟踪 几乎 
所 有 关于 文件 的 信息 ， 包 括 其 大 小 、 文 件 块 在 磁盘 上 的 位 置 等 等 。 其 
次 ， 将 人 类 可 读 的 名 称 链 接 到 该 文件 ， 并 将 该 链接 放 入 目录 中 。 


在 创建 文件 的 硬 链接 之 后 ， 在 文件 系统 中 ， 原 有 文件 名 〈file) 和 新 
创建 的 文件 名 (file2) 之 间 没 有 区 别 。 实 际 上 ， 它 们 都 只 是 指向 文件 
底层 元 数据 的 链接 ， 可 以 在 inode 编 号 67158084 中 找到 。 


因此 ， 为 了 从 文件 系统 中 删除 一 个 文件 ， 我 们 调用 unlink 0 。 在 上 面 
A 我 们 可 以 删除 文件 名 file， 并 且 仍 然 蛙 无 困难 地 访问 该 文 


prompt> rm file 
removed '‘'file' 
prompt> cat file2 
hello 


这 样 的 结果 是 因为 当 文件 系统 取消 链接 文件 时 ， 它 检查 inode 号 中 的 引 
用 计数 (reference count) 。 该 引用 计数 (有 时 称 为 链接 计数 ，1ink 
count ) 允许 文件 系统 跟踪 有 多 少 不 同 的 文件 名 已 链接 到 这 个 inode。 
调用 unlink (0 时， 会 删除 人 类 可 读 的 名 称 《〈 正 在 删除 的 文件 ) 与 给 定 
inode 号 之 间 的 “链接 ”， 并 减少 引用 计数 。 只 有 当 引 用 计数 达到 零 
文件 系统 才 会 释放 inode 和 相关 数据 块 ， 从 而 真正 “删除 ”该 文 








当然 ， 你 可 以 使 用 stat 0 来 查看 文件 的 引用 计数 。 让 我 们 看 看 创建 和 
删除 文件 的 硬 链 接 时 ， 引 用 计数 是 什么 。 在 这 个 例子 中 ， 我 们 将 为 同 
一 个 文件 创建 3 个 链接 ， 然 后 删除 它们 。 仔 细 看 链接 计数 ! 


prompt> echo hello > file 
prompt> stat fil 

.. Inode: 67158084 Limnks.s 1 sa 
prompt> ln file file2 
prompt> stat file 

.. Inode: 67158084 TKS 2 
prompt> stat file2 

.. Inode: 6715808 4 Links: 2 a 
prompt> ln file2 file3 
prompt> stat file 

.. Inode: 6715808 4 LiNkS 3 a 
prompt> rm file 
prompt> stat file2 

.. Inode: 67158084 LinkKSS "2 6a 
prompt> rm file2 





























prompt> stat file3 
.. Inode: 67158084 Linkss. 1 dws 
prompt> rm file3 


39. 14 符号 链接 


还 有 一 种 非常 有 用 的 链接 类 型 ， 称 为 符号 链接 (symbolic link) ， 有 
时 称 为 软 链接 (soft link) 。 事 实 表明 ， 硬 链接 有 点 局 限 : 你 不 能 创 
建 目录 的 硬 链接 (因为 担心 会 在 目录 树 中 创建 一 个 环 ) 。 你 不 能 硬 链 
接 到 其 他 磁盘 分 区 中 的 文件 〈 因 为 inode 号 在 特定 文件 系统 中 是 唯一 
的 ， 而 不 是 路 文件 系统 ) ， 等 等 。 因 此 ， 人 们 创建 了 一 种 称 为 符号 链 
接 的 新 型 链接 。 


要 创建 这 样 的 链接 ， 可 以 使 用 相同 的 程序 ln， 但 使 用 -s 标 志 。 下 面 是 


王刚 于。 


prompt> echo hello > file 
prompt> ln -s file file2 
prompt> cat file2 

hello 





如 你 所 见 ， 创 建 软 链接 看 起 来 几乎 相同 ， 现 在 可 以 通过 文件 名 称 file 
以 及 符号 链接 名 称 file2 来 访问 原始 文件 。 


但 是 ， 除 了 表面 相似 之 外 ， 符 号 链接 实际 上 与 硬 链 接 完全 不 同 。 第 一 
个 区 别 是 符号 链接 本 身 实 际 上 是 一 个 不 同类 型 的 文件 。 我 们 已 经 讨论 
过 常规 文件 和 目录 。 符 号 链接 是 文件 系统 知道 的 第 三 种 类 型 。 对 符号 
链接 运行 stat 揭 示 了 一 切 。 


prompt> stat file 

.. regular file ... 
prompt> stat file2 

“» Synbolic Link s,s 


运行 1s 也 揭示 了 这 个 事实 。 如 果 仔 细 观 察 1s 输 出 的 长 格式 的 第 一 个 字 
符 ， 可 以 看 到 常规 文件 最 左 列 中 的 第 一 个 字符 是 “-”， 目 录 是 








“d”， 软 链接 是 “1”。 你 还 可 以 看 到 符号 链接 的 大 小 (本 例 中 为 4 个 
字 节 ) ， 以 及 链接 指向 的 内 容 ( 名 为 file 的 文件 )。 


prompt> ls -al 

drwxr-x--- 2 remzi remzi 29 May 3 19:10 ./ 
drwxr-x--- 27 remzi remzi 4096 May 3 15:14 ../ 
-rw-r----- 1 remzi remzi 6 May 3 19:10 file 
Jrwxrwxrwx 1 remzi remzi 4 May 3 19:10 file2 -> file 


file2 是 4 个 字 节 ， 原 因 在 于 形成 符号 链接 的 方式 ， 即 将 链接 指 加 文件 
的 路 径 名 作为 链接 文件 的 数据 。 因 为 我 们 链接 到 一 个 名 为 file 的 文 
件 ， 所 以 我 们 的 链接 文件 file2 很 小 《4 个 字 节 ) 。 如 果 链 接 到 更 长 的 
路 径 名 ， 链 接 文 件 会 更 大 。 


prompt> echo hello > alongerfilename 

prompt> ln -s alongerfilename file3 

prompt> 1s -al alongerfilename file3 

-rwWw-r----- 1 remzi remzi 6 May 3 19:17 alongerfilename 
lJrwxrwxrwx 1 remzi remzi 15 May 3 19:17 file3 -> alongerfilename 








最 后 ， 由 于 创建 符 写 链接 的 方式 ， 有 可 能 造成 所 请 的 巧 空 引 用 


(dangling reference) 。 


prompt> echo hello > file 

prompt> ln -s file file2 

prompt> cat file2 

hello 

prompt> rm file 

prompt> cat file2 

cat: file2: No such file or directory 


正如 你 在 本 例 中 看 到 的 ， 符 号 链接 与 便 链 接 完全 不 同 ， 删 除名 为 file 
的 原始 文件 会 导致 符号 链接 指向 不 再 存在 的 路 径 名 。 


39. 15 创建 并 挂 载 文件 系统 





我 们 现在 已 经 了 解 了 访问 文件 、 目 录 和 特定 类 型 链接 的 基本 接口 。 但 
是 我 们 还 应 该 讨论 另 一 个 话题 : 如 何 从 许多 底层 文件 系统 组 建 完 整 的 
目录 树 。 这 项 任务 的 实现 是 先 制作 文件 系统 ， 然 后 挂 载 它 们 ， 使 其 内 
容 可 以 访问 。 


为 了 创建 一 个 文件 系统 ， 大 多 数 文件 系统 提供 了 一 个 工具 ， 通 常 名 为 
mkfs (发 首 为 “make fs”) ， 它 就 是 完成 这 个 任务 的 。 思 路 如 下 : 作 
为 输入 ， 为 该 工具 提供 一 个 设备 (例如 磁盘 分 区 ， 例 如 /dev/sdal) ， 
一 种 文件 系统 类 型 (例如 ext3) ， 它 就 在 该 磁盘 分 区 上 写 入 一 个 空 文 
件 系统 ， 从 根 目 录 开 始 。mkfs 说 ， 要 有 文件 系统 ! 


但 是 ， 一 旦 创建 了 这 样 的 文件 系统 ， 就 需要 在 统一 的 文件 系统 树 中 进 
行 访问 。 这 个 任务 是 通过 mount 程 序 实现 的 ( 它 使 底层 系统 调用 
mount () 完成 实际 工作 ) 。mount 的 作用 很 简单 : 以 现 有 日 录 作 为 目标 
OO A 
下 吉 上 上 


这 里 举 个 例子 可 能 很 有 用 。 想 象 一 下 ， 我 们 有 一 个 未 挂 载 的 ext3 文 件 
系统 ， 存 储 在 设备 分 区 /dev/sdal 中 ， 它 的 内 容 包 括 : 一 个 根 目 录 ， 其 
中 包含 两 个 子 目 录 a 和 b， 每 个 子 目 录 依 次 包含 一 个 名 为 foo 的 文件 。 假 
设 希 思 在 挂 载 尽 /home/users 上 挂 载 此 文件 系统 。 我 们 会 输入 以 下 命 
ca 














prompt> mount -t ext3 /dev/sdal /home/users 





如 果 成 功 ，mount 就 让 这 个 新 的 文件 系统 可 用 了 。 但 是 ， 请 注意 现在 如 
何 访问 新 的 文件 系统 。 要 查看 那个 根 目录 的 内 容 ， 我 们 将 这 样 使 用 
1s: 


prompt> ls /home/users/ 
a Pb 





如 你 所 见 ， 路 径 名 /home/users/ 现 在 指 的 是 新 挂 载 目录 的 根 。 同 样 ， 
我 们 可 以 使 用 路 径 名 /home/users/a 和 /home/usefrs/b 访 问 文 件 a 和 b。 
最 后 ， 可 以 通过 /home/users/a/foo 和 /home/users/ b/foo 访 问 名 为 
foo 的 两 个 文件 。 因 此 mount 的 美妙 之 处 在 于 : 它 将 所 有 文件 系统 统一 
Te A 





要 查看 系统 上 挂 载 的 内 容 ， 以 及 在 哪些 位 置 挂 载 ， 只 要 运行 hount 程 
序 。 你 会 看 到 类 似 下 面 的 内 容 : 


/dev/sdal on / type ext3 (rw) 
proc on /proc type proc (rw) 


sysfs on /sys type sysfs (rw) 

/dev/sda5 on /tmp type ext3 (rw) 

/dev/sda7 on /var/vice/cache typ xt3 (rw) 
tmpfs on /dev/shm type tmpfs (rw) 

AFS on /afs type afs (rw) 





这 个 闫 狂 的 组 合 展示 了 许多 不 同 的 文件 系统 ， 包 括 ext3 [标准 的 芋 于 
磁盘 的 文件 系统 ) 、proc 文 件 系 统 〈 用 于 访问 当前 进程 信息 的 文件 系 
统 ) 、tmpfs ( 仅 用 于 临时 文件 的 文件 系统 ) 和 AFS (分 } 布 式 文件 系 
统 ) 。 它 们 都 “ 粘 ” 在 这 台 机 器 的 文件 系统 树 上 。 


39. 16 小 结 


UNIX 系 统 〈 实 际 上 任何 系统 ) 中 的 文件 系统 接口 看 似 非 常 基本 ,但 如 
果 你 想 掌 握 它 ， 还 有 很 多 需要 了 解 的 东西 。 当 然 ， 没 有 什么 比 直接 
(大 量 地 ) 使 用 它 更 好 。 所 以 请 用 它 ! 当然 ， 要 读 更 多 的 书 。 像 往常 
一 样 ，Stevens 的 书 LSR05j] 是 开始 的 地 方 。 


我 们 浏览 了 基本 的 接口 ， 希 望 你 对 它们 的 工作 原理 有 所 了 解 。 更 有 趣 
的 是 如 何 实现 一 个 满足 API 要 求 的 文件 系统 ， 接 下 来 将 详细 介绍 这 个 主 


[Kk84] “Processes as Files” Tom J. Killian 
USENIX, June 1984 


0 ， 其 中 每 个 进程 都 可 以 被 视 为 伪 文 件 系 统 中 
的 文件 。 这 是 一 个 聪明 的 想法 ， 你 仍然 可 以 在 现代 UNIX 系 统 中 看 到 。 


[L84] “Capability-Based Computer Systems” Henry M. Levy 


Digital Press, 1984 


早期 基于 权限 的 系统 的 完美 概述 。 


[P+13] “Towards Efficient, Portable Application-Level 
Consistency” 


Thanumalayan S. Pillai, Vijay Chidambaram, Joo-Young Hwang, 
Andrea C. Arpaci-~Dusseau, and Remzi H. Arpaci~Dusseau 


HotDep ” 13, November 2013 


我 们 自己 的 研究 工作 ， 表 明了 应 用 程序 在 将 数据 提交 到 磁盘 时 可 能 会 
有 多 少 错误 。 特 别 是 关于 文件 系统 假设 “ 溜 ” 到 应 用 程序 中 ， 从 而 导 
致 应 用 程序 只 有 在 特定 文件 系统 上 运行 时 才能 正常 工作 。 





[SKO9] “Principles of Computer System Design” Jerome HH. 
Saltzer and M. Frans Kaashoek Morgan-Kaufmann, 2009 


对 于 任何 对 该 领域 感 兴趣 的 人 来 说 ， 这 是 系统 的 代表 作 ， 是 必 读 的 。 
这 是 作者 在 厂 省 理工 学 院 教授 系统 的 方式 。 硕 望 你 阅读 一 过 ， 然 后 再 
读 几 遍 ， 直 至 完全 理解 。 

[SRO5] “Advanced Programming in the UNIX Environment” 

W. Richard Stevens and Stephen A. Rago Addison-Wesley, 2005 


我 们 可 能 引用 了 这 本 书 几 十 万 次 。 如 果 你 想 成 为 一 个 出 色 的 系统 程序 
员 ， 这 本 书 对 你 很 有 用 。 





作业 


在 这 次 作业 中 ， 我 们 将 熟悉 本 章 中 描述 的 API 是 如 何 工作 的 。 为 此 ， 你 
只 需 编写 几 个 不 同 的 程序 ， 主 要 基于 各 种 UNIX 实 用 程序 。 








问题 





1. Stat: 实现 一 个 自己 的 命令 行 工具 stat， 实 现 对 一 个 文件 或 目录 调 
用 stat (0) 函数 即 可 。 将 文件 的 大 小 、 分 配 的 磁盘 块 数 、 引 用 数 等 信息 
打印 出 来 。 当 目录 的 内 容 发 生变 化 时 ， 目 录 的 引用 计数 如 何 变 化 ? 有 
用 的 接口 : stat () 。 


2. 列 出 文件 : 编写 一 个 程序 ， 列 出 指定 目录 内 容 。 如 果 没 有 传 参数 ， 
则 程序 仅 输出 文件 名 。 当 传 入 -1 参数 时 ， 程 序 需要 打印 出 文件 的 所 有 
者 ， 所 属 组 权限 以 及 stat () 函数 获得 的 一 些 其 他 信息 。 另 外 还 要 文 持 
传 入 要 读 取 的 目录 作为 参数 ， 比 如 myls -1 directory。 如 果 没 有 传 入 
目录 参数 ， 则 用 当前 目录 作为 默认 参数 。 有 用 的 接口 : stat 0、 
opendir()、readdir() 和 和 getcwd()。 


3. Tail: 编写 一 个 程序 ， 输 出 一 个 文件 的 最 后 几 行 。 这 个 程序 运行 后 
要 能 跳 到 文件 末尾 附近 ， 然 后 一 直 读 取 指 定 的 数据 行 数 ， 并 全 部 打印 
出 来 。 运 行程 序 的 命令 是 mytail -n file， 其 中 参数 n 是 指 从 文件 末 
尾数 起 要 打印 的 行 数 。 有 用 的 接口 : stat()、1lseek()、open()、 
read() 和 close () 。 


4. 递归 查找 编写 一 个 程序 ， 打 印 指定 目录 树 下 所 有 的 文件 和 目录 
名 。 比 如 ， 当 不 带 参数 运行 程序 时 ， 会 从 当前 工作 目录 开始 递归 打印 
目录 内 容 以 及 其 所 有 子 目 录 的 所 有 内 容 ， 直 到 打印 完 以 当前 工作 目录 
为 根 的 整 棵 目录 树 。 如 果 传 入 了 一 个 目录 参数 ， 则 以 这 个 目录 为 根 开 
始 递 归 打 印 。 可 以 添加 更 多 的 参数 来 限制 程序 的 递归 遍历 操作 ， 可 以 
参照 find 命令 。 有 用 的 接口 : 自己 想 一 下 。 














[1]， 一 些 文件 系统 中 ， 这 些 结构 名 称 相似 但 略 有 不 同 ， 如 dnodes。 但 
基本 的 想法 是 相似 的 。 


第 40 章 ”文件 系统 实现 


本 章 将 介绍 一 个 简单 的 文件 系统 实现 ， 称 为 VSFS (Very Simple File 
System， 简 单 文件 系统 ) 。 它 是 典型 UNIX 文 件 系统 的 简化 版 本 ， 因 此 
可 用 于 介绍 一 些 基 本 磁盘 结构 、 访 问 方 法 和 各 种 策略 ， 你 可 以 在 当今 
许多 文件 系统 中 看 到 。 


文件 系统 是 纯 软 件 。 与 CPU 和 内 存 虚 拟 化 的 开发 不 同 ， 我 们 不 会 添加 硬 
件 功能 来 使 文件 系统 的 某 些 方面 更 好 地 工作 (但 我 们 需要 注意 设备 特 
性 ， 以 确保 文件 系统 运行 良好 ) 。 由 于 在 构建 文件 系统 方面 具有 很 大 
的 灵活 性 ， 因 此 人 们 构建 了 许多 不 同 的 文件 系统 ， 从 AFS (Andrew 文 件 
系统 ) [H+88] 到 ZFS (Sun 的 Zettabyte 文 件 系 统 ) [B07] 。 所 有 这 些 文 
件 系 统 都 有 不 同 的 数据 结构 ， 在 某 些 方面 优 于 或 逊 于 同类 系统 。 因 
此 ， 我 们 学 习 文 件 系 统 的 方式 是 通过 案例 研究 ; 首先， 通过 本 章 中 的 
简单 文件 系统 (VSFS) 介绍 大 多 数 概 念 。 然 后 ， 对 真实 文件 系统 进行 
一 系列 研究 ， 以 了 解 它们 在 实践 中 有 何 区 别 。 








关键 问题 ， 如 何 实 现 简 单 的 文件 系统 


如 何 构 建 一 个 简单 的 文件 系统 ? 磁盘 上 需要 什么 结构 ?它们 
需要 记录 什么 ? 它们 如 何 访问 ? 


40.1 思考 方式 





考虑 文件 系统 时 ， 我 们 通 第 建议 考虑 它们 的 两 个 不 同方 面 。 如 果 你 理 
解 了 这 两 个 方面 ， 可 能 就 理解 了 文件 系统 基本 工作 原理 。 


第 一 个 方面 是 文件 系统 的 数据 结构 (data structure) 。 换 言 之 ， 文 
件 系 统 在 人 磁盘 上 使 用 哪些 类 型 的 结构 来 组 织 其 数据 和 元 数据 ?我 们 即 
将 看 到 的 第 一 个 文件 系统 (包括 下 面 的 VSFS) 使 用 简单 的 结构 ， 如 块 
或 其 他 对 象 的 数组 ， 而 更 复杂 的 文件 系统 (如 SGI 的 XFS) 使 用 更 复杂 
的 基于 树 的 结构 [S+96] 。 


补充 : 文件 系统 的 心智 模型 


正如 我 们 之 前 讨论 的 那样 ， 心 智 模 型 就 是 你 在 学 习 系 统 时 真 
正 想 要 发 展 的 东西 。 对 于 文件 系统 ， 你 的 心智 模型 最 终 应 该 
包含 以 下 问题 的 答案 : 磁盘 上 的 哪些 结构 存储 文件 系统 的 数 
据 和 元 数据 ? 当 一 个 进程 打开 一 个 文件 时 会 发 生 什么 ?在读 
取 或 写 入 期 间 访问 哪些 磁盘 结构 ?通过 研究 和 改进 心智 模 
型 ， 你 可 以 对 发 生 的 事情 有 一 个 抽象 的 理解 ， 而 不 是 试图 理 
解 茶 些 文件 系统 代码 的 细节 《当然 这 也 是 有 用 的 ! ) 。 











文件 系统 的 第 二 个 方面 是 访问 方法 (access method) 。 如 何 将 进程 发 
出 的 调用 ， 如 open (0) 、tread() 、write 0 等， 映射 到 它 的 结构 上 ? 在 执 
行 特定 系统 调用 期 间 读 取 哪 些 结构 ? 改写 哪些 结构 ? 所 有 这 些 步骤 的 
执行 效率 如 何 ? 


如 果 你 理解 了 文件 系统 的 数据 结构 和 访问 方法 ， 束 形成 了 一 个 天 于 它 
如 何 工作 的 良好 心智 模型 ， 这 是 系统 思维 的 一 个 关键 部 分 。 在 深入 研 
完 我 们 的 第 一 个 实现 时 ， 请 尝试 建立 你 的 心智 模型 。 


40.2 整体 组 织 


我 们 现在 来 开发 VSFS 文 件 系统 在 磁盘 上 的 数据 结构 的 整体 组 织 。 我 们 
需要 做 的 第 一 件 事 是 将 磁盘 分 成 块 (block) 。 简 单 的 文件 系统 只 使 用 
一 种 块 大 小 ， 这 里 正 是 这 样 做 的 。 我 们 选择 常用 的 4KB。 





因此 ， 我 们 对 构建 文件 系统 的 磁盘 分 区 的 看 法 很 简单 : 一 系列 块 ， 
块 大 小 为 44B。 在 大 小 为 WV 个 4kB 块 的 分 区 中 ， 这 些 块 的 地 址 为 从 0 到 
二 1。 假 设 我 们 有 一 个 非常 小 的 磁盘 ， 只 有 64 块 : 


本 


J 10 23 24 J] 
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现在 让 我 们 考虑 一 下 ， 为 了 构建 文件 系统 ， 需 要 在 这 些 块 中 存储 什 
么 。 当 然 ， 首 先 想 到 的 是 用 户 数据 。 实 际 上 ， 任 何 文 件 系统 中 的 大 多 
数 空 间 都 是 〈 并 且 应 该 是 ) 用 户 数据 。 我 们 将 用 于 存放 用 户 数据 的 磁 
盘 区 域 称 为 数据 区 域 〈data region) ， 简 单 起 见 ， 将 磁盘 的 固定 部 分 
留 给 这 些 块 ， 例如 磁盘 上 64 个 块 的 最 后 56 个 : 


数据 区 域 
| 一 一 
1 Po oop Do 


23 外 
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1 33 30 


正如 我 们 在 第 39 章 中 了 解 到 的 ， 文 件 系统 必须 记录 每 个 文件 的 信息 。 
该 信息 是 元 数据 (metadata) 的 关键 部 分 ， 并 且 记 录 诸 如 文件 包含 哪 
些 数据 块 〈 在 数据 区 域 中 ) 、 文 件 的 大 小 ， 其 所 有 者 和 访问 权限 、 访 
问 和 修改 时 间 以 及 其 他 类 似 信息 的 事情 。 为 了 存储 这 些 信息 ， 文 件 系 
统 通常 有 一 个 名 为 inode 的 结构 (后 面 会 位 用 从 如 ode 








为 了 存放 inode， 我 们 还 需要 在 磁盘 上 留 出 一 些 空 间 。 我 们 将 这 部 分 磁 
盘 称 为 inode 表 (inode table) ， 它 只 是 保存 了 一 个 磁盘 上 inode 的 数 
组 。 因 此 ， 假 设 我 们 将 64 个 块 中 的 5 块 用 于 inode， 人 磁盘 映像 现在 看 起 
来 如 下 : 





inodes 数据 区 域 
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在 这 里 应 该 指出 ，inode 通 常 不 是 那么 大 ， 例 如 ， 只 有 128 或 256 字 节 。 
假设 每 个 inode 有 256 字 节 ， 一 个 4&B 块 可 以 容纳 16 个 inode， 而 我 们 上 
面 的 文件 系统 则 包含 80 个 inode。 在 我 们 简单 的 文件 系统 中 ， 建 立 在 一 
个 小 小 的 64 块 分 区 上 ， 这 个 数字 表示 文件 系统 中 可 以 拥有 的 最 大 文件 
数量 。 但 是 请 注意 ， 建 立 在 更 大 磁盘 上 的 相同 文件 系统 可 以 简单 地 分 
配 更 大 的 inode 表 ， 从 而 容纳 更 多 文件 。 


到 目前 为 止 ， 我 们 的 文件 系统 有 了 数据 块 (D) 和 inode (I) ， 但 还 缺 
一 些 东 西 。 你 可 能 已 经 猜 到 ， 还 需要 某 种 方法 来 记录 inode 或 数据 块 是 
空闲 还 是 已 分 配 。 因 此 ， 这 种 分 配 结构 (allocation structure) 是 


所 有 文件 系统 中 必需 的 部 分 。 


当然 ， 可 能 有 许多 分 配 记 录 方 法 。 例 如 ， 我 们 可 以 用 一 个 空闲 列表 
(free list) ， 指 回 第 一 个 空闲 块 ， 然 后 它 又 指 同 下 一 个 空闲 块 ， 依 
此 类 推 。 我 们 选择 一 种 简单 而 流行 的 结构 ， 称 为 位 图 (bitmap) ， 一 
种 用 于 数据 区 域 (数据 位 图 ，data bitmap) ， 另 一 种 用 于 inode 表 
(inode 位 图 ，inode bitmap) 。 位 图 是 一 种 简单 的 结构 : 每 个 位 用 于 
指示 相应 的 对 象 / 块 是 空 亲 〈0) 还 是 正在 使 用 〈1) 。 因 此 新 的 磁盘 布 
局 如 下 ， 包 含 inode 位 图 Ci) 和 数据 位 图 (d) : 
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你 可 能 会 注意 到 ， 对 这 些 位 图 使 用 整个 4KB 块 是 有 点 杀 鸡 用 和 牛刀。 这 样 
的 位 图 可 以 记录 32KB 对 象 是 否 分 配 ， 但 我 们 只 有 80 个 inode 和 56 个 数据 
块 。 但 是 ， 简 单 起 见 ， 我 们 就 为 每 个 位 图 使 用 整个 4KB 块 。 


细心 的 读者 可 能 已 经 注意 到 ， 在 极 简 文件 系统 的 磁盘 结构 设计 中 ， 还 
有 一 块 。 我 们 将 它 保留 给 超级 块 (superblock) ， 在 下 图 中 用 S 表 示 。 
超级 块 包含 关于 该 特定 文件 系统 的 信息 ， 包括 例如 文件 系统 中 有 多 少 
个 inode 和 数据 块 (在 这 个 例子 中 分 别 为 80 和 56) 、inode 表 的 开始 位 
置 ( 块 3) 等 等 。 它 可 能 还 包括 一 些 幻 数 ， 来 标识 文件 系统 类 型 (在 本 
例 中 为 VSFS) ， 
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因此 ， 在 挂 载 文件 系统 时 ， 操 作 系 统 将 首先 读 取 超 级 块 ， 初 始 化 各 种 
参数 ， 然 后 将 该 卷 添 加 到 文件 系统 树 中 。 当 卷 中 的 文件 被 访问 时 ， 系 
统 就 会 知道 在 哪里 查找 押 需 的 磁盘 上 的 结构 。 


40.3 文件 组 织 : inode 


文件 系统 最 重要 的 人 厂 盘 结构 之 一 是 inode， 几 乎 所 有 的 文件 系统 都 有 类 
似 的 结构 。 名 称 inode 是 index node〈 索 引 节点 ) 的 缩写 ， 它 是 由 UNIX 
开发 人 员 Ken Thompson [RT74] 给 出 的 历史 性 名 称 ， 因 为 这 些 节点 最 初 
放 在 一 个 数组 中 ， 在 访问 特定 inode 时 会 用 到 该 数组 的 索引 。 





补充 : 数据 结构 一 一 inode 


inode 是 许多 文件 系统 中 使 用 的 通用 名 称 ， 用 于 描述 保存 给 定 
文件 的 元 数据 的 结构 ， 例 如 其 长 度 、 权 限 以 及 其 组 成 块 的 位 
置 。 这 个 名 称 至 少 可 以 追溯 到 UNIX (如果 不是 早期 的 系统 ， 
可 能 还 会 追溯 到 Multics) 。 它 是 index node (索引 节点 ) 的 
缩写 ， 因 为 inode 号 用 于 索引 人 厂 盘 上 的 inode 数 组 ， 以 便 查 找 
该 inode 号 对 应 的 inode。 我 们 将 看 到 ，inode 的 设计 是 文件 系 
统 设计 的 一 个 关键 部 分 。 大 多 数 现代 系统 对 于 它们 记录 的 每 
个 文件 都 有 这 样 的 结构 ， 但 也 许 用 了 不 同 的 名 字 (如 


dnodes、fnodes 等 ) 。 


每 个 inode 都 由 一 个 数字 〈 称 为 inumber ) 隐 式 引用 ， 我 们 之 前 称 之 为 
文件 的 低级 名 称 (low-level name) 。 在 VSFS (和 其 他 简单 的 文件 系 
统 ) 中 ， 给 定 一 个 inumber， 你 应 该 能 够 直接 计算 人 磁盘 上 相应 节点 的 位 
置 。 例 如 ， 如 上 所 述 ， 获 取 VSFS 的 inode 表 : 大 小 为 20KB (5 个 4KB 
块 ) ， 因 此 由 80 个 inode“〈 假 设 每 个 inode 为 256 字 节 ) 组 成 。 进 一 步 假 
设 inode 区 域 从 12KB 开 始 〈 即 超级 块 从 OKB 开 始 ，inode 位 图 在 4KB 地 
址 ， 数 据 位 图 在 8KB， 因 此 inode 表 紧 随 其 后 ) 。 因 此 ， 在 VSFS 中 ， 我 
们 为 文件 系统 分 区 的 开头 提供 了 以 下 布局 〈 特 写 视 图 ) : 
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要 读 取 inode 号 32， 文 件 系 统 首 先 会 计算 inode 区域 的 偏 移 量 
(32Xinode 的 大 小 ， 即 8192) ， 将 它 加 上 磁盘 inode 表 的 起 始 地 址 
(inodeStartAddr = 12KB) ， 从 而 得 到 和 希望 的 inode 块 的 正确 字 节 地 
址 : 20KB。 oa 磁盘 不 是 按 字 节 可 寻 址 的 ， 而 是 由 大 量 可 寻 址 
扇 区 组 成 ， 通 常 是 512 字 节 。 因 此 ， 为 了 获取 包含 索引 节点 32 的 索引 节 
点 块 ， 文 件 系统 将 向 节点 ( 即 40) 发 出 一 个 读 取 请 求 ， 取 得 期 望 的 
inode 块 。 更 一 般 地 说 ，inode 块 的 肩 区 地 址 iaddr 可 以 计算 如 下 : 


blk = (inumber * sizeof (inode t)) / blockSize; 
sector = ((blk * blockSize) + inodeStartAddr) / sectorSize; 




















在 每 个 inode 中 ， 实 际 上 是 所 有 关于 文件 的 信息 : 文件 类 型 (例如 ， 常 
规 文件 、 目 录 等 ) 、 大 小 、 分 配给 它 的 块 数 、 保 护 信息 《如 谁 拥有 该 
文件 以 及 谁 可 以 访问 它 )、 一 些 时 间 信 息 〈( 包 括 文件 创建 、 修 改 或 上 
次 访问 的 时 间 文 件 下 ) ， 以 及 有 关 其 数据 块 驻 留 在 磁盘 上 的 位 置 的 信 
县 《如 某 种 类 型 的 指针 ) 。 我 们 将 所 有 关于 文件 的 信息 称 为 元 数据 
Cmetadata) 。 实 际 上 ， 文 件 系 统 中 除了 纯粹 的 用 户 数据 外 ， 其 他 任 
通常 都 称 为 元 数据 。 表 40. 1 所 示 的 是 ext2 [P09] 的 inode 的 例 











设计 inode 时 ， 最 重要 的 决定 之 一 是 它 如 何 引 用 数据 块 的 位 置 。 一 种 简 
单 的 方法 是 在 inode 中 有 一 个 或 多 个 直接 指针 (磁盘 地 址 ) 。 每 个 指针 
指 癌 属于 该 文件 的 一 个 人 磁盘 块 。 这 种 方法 有 局 限 : 例如 ， 如 果 你 想 要 
一 个 非常 大 的 文件 (例如 ， 大 于 块 的 大 小 乘 以 直接 指针 数 ) ， 那 束 不 


走运 了 。 





表 40. 1 ext2 的 inode 





大 小 〈 字 节 ) 





该 文件 是 否 可 以 读 / 写 /执行 
谁 拥有 该 文件 

该 文件 有 多 少 字 

该 文件 最 近 的 访问 时 间 是 什么 时 候 
该 文件 的 创建 时 间 是 什么 时 候 

该 文件 最 近 的 修改 时 间 是 什么 时 候 
该 inode 被 删除 的 时 间 是 什么 时 候 
该 文件 有 多 少 硬 链接 
为 该 文件 分 配 了 多 少 块 
ext2 将 如 何 使 用 该 inode 
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多 级 索引 


为 了 文 持 更 大 的 文件 ， 文 件 系统 设计 者 必须 在 inode 中 引入 不 同 的 疆 
构 。 一 个 常见 的 思路 是 有 一 个 称 为 间接 指针 (indirect pointer) 的 
特殊 指针 。 它 不 是 指 同 包含 用 户 数据 的 块 ， 而 是 指 同 包含 更 多 指针 的 
块 ， 每 个 指针 指向 用 户 数 据 。 因 此 ，inode 可 以 有 一 些 固定 数量 (例如 
12 个 ) 的 直接 指针 和 一 个 间接 指针 。 如 果 文 件 变 得 足够 大 ， 则 会 分 配 
一 个 间接 块 “〈 来 自 磁 盘 的 数据 块 区 域 ) ， 并 将 inode 的 间接 指针 设置 为 
指向 它 。 假 设 一 个 块 是 4kB， 人 磁盘 地 址 是 4 字 节 ， 那 就 增加 了 1024 个 指 
针 。 文 件 可 以 增长 到 (12 + 1024) X4KB， 即 4144KB。 





提示 : 考虑 基于 范围 的 方法 


男 一 种 方法 是 使 用 范围 (extent ) 而 不 是 指针 。 范 围 就 是 一 
个 磁盘 指针 加 一 个 长 度 〈 以 块 为 单位 ) 。 因 此 ， 不 需要 指 回 
文件 的 每 个 块 的 指针 ， 只 需要 指针 和 长 度 来 指定 文件 的 磁盘 
位 置 。 只 有 一 个 范围 是 有 局 限 的 ， 因 为 分 配 文件 时 可 能 无 法 
找到 连续 的 磁盘 可 用 空间 块 。 因 此 ， 基 于 范围 的 文件 系统 通 
0 


这 两 种 方法 相 比 较 ， 基 于 指针 的 方法 是 最 灵活 的 ， 但 是 每 个 
文件 使 用 大 量 元 数据 (尤其 是 大 文件 ) 。 基 于 范围 的 方法 不 
够 灵活 但 更 紧凑 。 特 别 是 ， 如 果 磁 盘 上 有 足够 的 可 用 空间 并 





且 文件 可 以 连续 布局 〈 无 论 如 何 ， 这 实际 上 是 所 有 文件 分 配 
策略 的 目标 ) ， 基 于 范围 的 方法 都 能 正常 工作 。 





时 不 奇怪 ， 在 这 种 方法 中 ， 你 可 能 希望 文 持 更 大 的 文件 。 为 此 ， 只 需 
添加 男 一 个 指向 inode 的 指针 : 双重 间接 指针 (double indirect 
pointer) 。 该 指针 指 的 是 一 个 包含 间接 块 指 针 的 块 ， 每 个 间接 块 都 包 
含 指 回 数据 块 的 指针 。 因 此 ， 双 重 间 接 块 提 供 了 可 能 性 ， 人 允许 使 用 额 
外 的 1024X1024 个 4KB 块 来 增长 文件 ， 换 言 之 ， 支 持 超 过 4GB 大 小 的 文 
件 。 不 过 ， 你 可 能 想 要 更 多 ， 我 们 打赌 你 知道 怎么 办 : 三 重 间 接 指 针 


(triple indirect pointer) 。 


总 之 ， 这 种 不 平衡 树 被 称 为 指向 文件 块 的 多 级 索引 (multi-level 
index) 方法 。 我 们 来 看 一 个 例子 ， 它 有 12 个 直接 指针 ， 以 及 一 个 间接 
块 和 一 个 双重 间接 块 。 假 设 块 大 小 为 4KB， 并 且 指 针 为 4 字 节 ， 则 该 结 
构 可 以 容纳 一 个 刚好 超过 4GB 的 文件 ， 即 (12 + 1024 + 10242 ) 
0 
示 : 和 


许多 文件 系统 使 用 多 级 索引 ， 包 括 常 用 的 文件 系统 ， 如 Linux ext2 
[P09] 和 ext3，NetApp 的 WAFL， 以 及 原始 的 UNIX 文 件 系 统 。 其 他 文件 系 
统 ， 包 括 SGI XFS 和 Linux ext4， 使 用 范围 而 不 是 简单 的 指针 。 有 关 基 
于 范围 的 方案 如 何 工作 的 详细 信息 ， 请 参阅 前 面 的 内 容 (它们 类 似 于 
讨论 虚拟 内 存 时 的 段 ) 。 


你 可 能 想 知 道 : 为 什么 使 用 这 样 的 不 平衡 树 ? 为 什么 不 采用 不 同 的 方 
法 ?好 吧 ， 事 实证 明 ， 许 多 研究 人 员 已 经 研究 过 文件 系统 以 及 它们 的 
使 用 方式 ， 几 乎 每 次 他 们 都 发 现 了 某 些 “真相 ”， 几 十 年 来 都 是 如 
此 。 其 中 一 个 真相 是 ， 大 多 数 文件 很 小 。 这 种 不 平衡 的 设计 反映 了 这 
样 的 现实 。 如 果 大 多 数 文件 确实 很 小 ， 那 么 为 这 种 情况 优化 是 有 意义 
的 。 因 此 ， 使 用 少量 的 直接 指针 〈12 是 一 个 典型 的 数字 ) ，inode 可 以 
直接 指向 48KB 的 数据 ， 需 要 一 个 (或 多 个 ) 间接 块 来 处 理 较 大 的 文 
件 。 参 见 Agrawal 等 人 最 近 的 研究 [A+07] 。 表 40. 2 总 结 了 这 些 结果 。 


表 40. 2 文件 系统 测量 汇总 
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大 多 数 文件 很 小 大 约 2KB 是 常见 大 小 


平均 文件 








大 小 在 增长 几乎 平均 增长 200KB 


大 多 数字 节 保 存在 大 文件 中 “| 少数 大 文件 使 用 了 大 部 分 空间 
文件 系统 包含 许多 文件 几乎 平均 100KB 


文件 系统 大 约 一 半 是 满 的 * 管 磁盘 在 增长 ， 文 件 系统 仍 保持 约 50% 是 满 的 


目录 通常 很 小 许多 只 有 少量 条 目 ， 大 多 数 少 于 20 个 条 目 


























补充 : 基于 链接 的 方法 


设计 inode 有 男 一 个 更 简单 的 方法 ， 即 使 用 链表 (linked 
list) 。 这 样 ， 在 一 个 inode 中 ， 不 是 有 多 个 指针 ， 只 需要 一 
个 ， 指 同文 件 的 第 一 个 块 。 要 处 理 较 大 的 文件 ， 束 在 该 数据 
块 的 末尾 添加 男 一 个 指针 等 ， 这 样 就 可 以 支持 大 文件 。 


你 可 能 已 经 猜 到 ， 链 接 式 文件 分 配对 于 茶 些 工作 负载 表现 不 
佳 。 例如 ， 考虑 读 取 文件 的 最 后 一 个 块 ， 或 者 就 是 进行 随机 
访问 。 因 此 ， 为 了 使 链接 式 分 配 更 好 地 工作 ， 一 些 系统 在 内 
存 中 保留 链接 信息 表 ， 而 不 是 将 下 一 个 指针 与 数据 块 本 身 一 
起 存储 。 该 表 用 数据 块 D 的 地 址 来 索引 ， 一 个 条 目的 内 容 就 是 
D 的 下 一 个 指针 ， 即 D 后 面 的 文件 中 的 下 一 个 炭 的 地 址 。 那里 
也 可 以 是 空 值 《 表 示 文 件 结束 ) ， 或 用 其 他 标记 来 表示 一 个 
特定 的 块 是 空闲 的 。 拥 有 这 样 的 下 一 块 指针 表 ， 使 得 链接 分 
配 机 制 可 以 有 效 地 进行 随机 文件 访问 ， 只 需 首 先 扫 描 《〈 在 内 
存 中 ) 表 来 查找 所 需 的 块 ， 然 后 直接 访问 《在 磁盘 上 ) 。 


这 样 的 表 听 起 来 很 熟悉 吗 ? 我 们 描述 的 是 所 谓 的 文件 分 配 表 
(File Allocation Table，FAT ) 一 一 文件 系统 的 基本 结 














构 。 是 的 ， 在 NTFS LC94j] 之 前 ， 这 款 经 典 的 旧 Windows 文 件 系 
统 基于 简单 的 基于 链接 的 分 配方 案 。 它 与 标准 UNIX 文 件 系统 
还 有 其 他 不 同 之 处 。 例 如 ， 本 身 没有 inode， 而 是 存储 关于 文 
件 的 元 数据 的 目录 条 目 ， 并 且 直 接 指 向 所 述 文 件 的 第 一 个 
块 ， 这 导致 不 可 能 创建 硬 链接 。 人 参见 Brouwer 的 著作 [B02]， 
了 解 更 多 不 够 优雅 的 细节 。 














当然 ， 在 inode 设 计 的 空间 中 ， 存 在 许多 其 他 可 能 性 。 毕 竟 ，inode 只 
是 一 个 数据 结构 ， 任 何 存储 相关 信息 并 可 以 有 效 查 询 的 数据 结构 就 足 
够 了 了。 由 于 文件 系统 软件 很 容易 改变 ， 如 果 工 作 负 载 或 技术 发 生变 
化 ， 你 应 该 愿意 探索 不 同 的 设计 。 








40.4 目录 组 织 


在 VSFS 中 《〈 像 许多 文件 系统 一 样 ) ， 目 录 的 组 织 很 简单 。 一 个 目录 基 
本 上 只 包含 一 个 二 元 组 〈 条 目 名 称 ，inode 号 ) 的 列表 。 对 于 给 定 目录 
中 的 每 个 文件 或 目录 ， 目 录 的 数据 块 中 都 有 一 个 字符 串 和 一 个 数字 。 
对 于 每 个 字符 串 ， 可 能 还 有 一 个 长 度 〈 假 定 采 用 可 变 大 小 的 名 称 ) 。 


人 例如， 假设 目 录 dir (inode 号 是 5) 中 有 3 个 文件 (foo、bar 和 
foobar) ， 它 们 的 inode 号 分 别 为 12、13 和 24。dir 在 磁盘 上 的 数据 可 
能 如 下 所 示 : 





inum | reclen | strlen | name 
5 4 
2 4 有 
直人 2 4 4 foo 
3 4 4 bar 
24 8 7 foobar 


在 这 个 例子 中 ， 每 个 条 目 都 有 一 个 inode 号 ， 记 录 长 度 〈 名 称 的 总 字 节 
数 加 上 上 所 有 的 剩余 空间 ) ， 字 符 串 长 度 〈 名 称 的 实际 长 度 ) ， 最 后 是 
条 目的 名 称 。 请 注意 ， 每 个 目录 有 两 个 额外 的 条 目 : . 《点 ) 和 .. 《〈 操 
点 ) 。 扩 目录 束 古 当前 目录 (在 本 例 中 为 dir〉， 而 点 扩 是 父 目录 在 
本 例 中 是 根 目录 )。 


























删除 一 个 文件 (例如 调用 unlink 0 ) 会 在 目录 中 间 留 下 一 段 空白 空 
闻 ， 因 此 应 该 有 一 些 方法 来 标记 它 〈 例 如 ， 用 一 个 保留 的 inode 号 ， 比 
如 0) 。 这 种 删除 是 使 用 记录 长 度 的 一 个 原因 : 新 条 目 可 能 会 重复 使 用 
旧 的 、 更 大 的 条 目 ， 从 而 在 其 中 留 有 额外 的 空间 。 


你 可 能 想 知道 确切 的 目录 存储 在 哪里 。 通 常 ， 文 件 系统 将 目录 视 为 特 
殊 类 型 的 文件 。 因 此 ， 目 录 有 一 个 inode， 位 于 inode 表 中 的 某 处 
(inode 表 中 的 inode 标 记 为 “目录 ”的 类 型 字段 ， 而 不 是 “常规 文 
件 ”) 。 该 日 录 具 有 由 inode 指 问 的 数据 块 〈( 也 可 能 是 间接 块 )。 这 些 
数据 块 存在 于 我 们 的 简单 文件 系统 的 数据 块 区 域 中 。 我 们 的 磁盘 结构 
因此 保持 不 变 。 


我 们 还 应 该 再 次 指出 ， 这 个 简单 的 线性 目录 列表 并 不 是 存储 这 些 信息 
的 唯一 方法 。 像 以 前 一 样 ， 任 何 数据 结构 都 是 可 能 的 。 例 如 ，XFS 
[S+96] 以 B 树 形式 存储 目录 ， 使 文件 创建 操作 (必须 确保 文件 名 在 创建 
之 前 未 被 使 用 ) 快 于 使 用 简单 列表 的 系统 ， 因 为 后 者 必须 扫描 其 中 的 


条 目 














40.5 衬 闲 空间 管理 


文件 系统 必须 记录 哪些 inode 和 数据 块 是 空 闲 的， 哪些 不 是 ， 这 样 在 分 
配 新 文件 或 目录 时 ， 就 可 以 为 它 找 到 空间 。 因 此 ， 衬 闲 空间 管理 
(free space management ) 对 于 所 有 文件 系统 都 很 重要 。 在 VSFS 中 ， 

我 们 用 两 个 简单 的 位 图 来 完成 这 个 任务 。 











补充 : 空闲 空间 管理 


管理 空 几 空间 可 以 有 很 多 方法 ， 位 图 只 是 其 中 一 种 。 一 些 早 
期 的 文件 系统 使 用 空闲 列表 (free list) ， 其 中 超级 块 中 的 
单个 指针 保持 指 辐 第 一 个 空闲 块 。 在 该 块 内 部 保留 下 一 个 空 
闪 指 针 ， 从 而 通过 系统 的 空 帮 块 形成 列表 。 在 需要 块 时 ， 使 
用 尖 块 并 相应 地 更 新 列表 。 


现代 文件 系统 使 用 更 复杂 的 数据 结构 。 例 如 ，SGI 的 XFS 
[S+96] 使 用 某 种 形式 的 B 树 〈B-tree) 来 紧凑 地 表示 磁盘 的 哪 
些 块 是 空 亲 的 。 与 所 有 数据 结构 一 样 ， 不 同 的 时 间 - 空 间 折 中 
也 是 可 能 的 。 


例如 ， 当 我 们 创建 一 个 文件 时 ， 我 们 必须 为 该 文件 分 配 一 个 inode。 文 
件 系 统 将 通过 位 图 搜索 一 个 空闲 的 内 容 ， 并 将 其 分 配给 该 文件 。 文 件 
系统 必须 将 inode 标 记 为 已 使 用 《〈 用 1) ， 并 最 终 用 正确 的 信息 更 新 磁 
盘 上 的 位 图 。 分 配 数据 块 时 会 发 生 类 似 的 一 组 活动 。 


为 新 文件 分 配 数据 块 时 ， 还 可 能 会 考虑 其 他 一 些 注意 事 项 。 例 如 ， 一 
些 Linux 文 件 系统 〈 如 ext2 和 ext3) 在 创建 新 文件 并 需要 数据 块 时 ， 会 
寻找 一 系列 空闲 块 〈 如 8 块 ) 。 通 过 找到 这 样 一 系列 空闲 块 ， 然 后 将 它 
们 分 配给 新 创建 的 文件 ， 文 件 系 统 保证 文件 的 一 部 分 将 在 磁盘 上 并 且 
是 连续 的 ， 从 而 提高 性 能 。 因 此 ， 这 种 预 分 配 (pre-allocation) 策 
略 ， 是 为 数据 块 分 配 空间 时 的 常用 启发 式 方法 。 





40.6 访问 路 径 : 读 取 和 写 入 


现在 我 们 已 经 知道 文件 和 目录 如 何 存 储 在 磁盘 上 ， 我 们 应 该 能 够 明白 
读 取 或 写 入 文件 的 操作 过 程 。 理 解 这 个 访问 路 径 (access path) 上 发 
生 的 事情 ， 是 开发 人 员 理 解 文 件 系 统 如 何 工 作 的 第 二 个 关键 。 请 注 


| 
忆 . 


对 于 下 面 的 例子 ， 我 们 假设 文件 系统 已 经 挂 载 ， 因 此 超级 块 已 经 在 内 
存 中 。 其 他 所 有 内 容 (如 inode、 有 目录 ) 仍 在 磁盘 上 。 





从 磁盘 读 取 文 件 





在 这 个 简单 的 例子 中 ， 让 我 们 先 假设 你 只 是 想 打 开 一 个 文件 〈 例 
如 /foo/bar， 读 取 它 ， 然 后 关闭 它 ) 。 对 于 这 个 简单 的 例子 ， 假 设 文 


件 的 大 小 只 有 4KB (〈 即 1 块 ) 。 


当 你 发 出 一 个 open(“/foo/bar“，0 RDONLY) 调用 时 ， 文 件 系统 首先 需 
要 找到 文件 bar 的 inode， 从 而 获取 关于 该 文件 的 一 些 基 本 信息 (权限 
信息 、 文 件 大 小 等 等 ) 。 为 此 ， 文 件 系统 必须 能 够 找到 inode， 但 它 现 
在 只 有 完整 的 路 径 名 。 文 件 系 统 必须 遍历 (traverse) 路 径 名 ， 从 而 
找到 所 需 的 inode。 


所 有 遍历 都 从 文件 系统 的 根 开始 ， 即 根 目 录 (root directory) ， 它 
就 记 为 /。 因 此 ， 文 件 系统 的 第 一 次 磁盘 读 取 是 根 目 录 的 inode。 但 是 
这 个 inode 在 哪里 ? 要 找到 inode， 我 们 必须 知道 它 的 inumber 。 通 
常 ， 我 们 在 其 父 日 录 中 找到 文件 或 目录 的 i-number。 根 没有 父 日 录 
(根据 定义 ) 。 因 此 ， 根 的 inode 号 必须 是 “众所周知 的 ”。 在 挂 载 文 
件 系统 时 ， 文 件 系统 必须 知道 它 是 什么 。 在 大 多 数 UNIX 文 件 系统 中 ， 
根 的 inode 号 为 2。 因 此 ， 要 开始 该 过 程 ， 文 件 系统 会 恋 入 inode 号 2 的 
块 (第 一 个 inode 块 ) 。 


一 旦 inode 被 读 入 ， 文 件 系 统 可 以 在 其 中 查找 指向 数据 块 的 指针 ， 数 据 
块 包含 根 目 录 的 内 容 。 因 此 ， 文 件 系 统 将 使 用 这 些 磁盘 上 的 指针 来 读 
取 目 录 ， 在 这 个 例子 中 ， 寻 找 foo 的 条 目 。 通 过 读 入 一 个 或 多 个 目录 数 
据 块 ， 它 将 找到 foo 的 条 目 。 一 旦 找到 ， 文 件 系 统 也 会 找到 下 一 个 需要 
的 foo 的 inode 号 《假定 是 44) 。 


下 一 步 是 递归 思 历 路 径 名 ， 直 到 找到 所 需 的 inode。 在 这 个 例子 中 ， 文 
件 系统 读 取 包 含 foo 的 inode 及 其 目录 数据 的 块 ， 最 后 找到 bar 的 inode 
号 。open() 的 最 后 一 步 是 将 bar 的 inode 读 入 内 存 。 然 后 文件 系统 进行 
最 后 的 权限 检查 ， 在 每 个 进程 的 打开 文件 表 中 ， 为 此 进程 分 配 一 个 文 
件 描 述 符 ， 并 将 它 返 回 给 用 户 。 


打开 后 ， 程 序 可 以 发 出 read() 系统 调用 ， 从 文件 中 读 取 。 第 一 次 读 取 
(除非 1seek () 已 被 调用 ， 则 在 偏 移 量 0 处 ) 将 在 文件 的 第 一 个 块 中 读 
取 ， 查 阅 inode 以 查找 这 个 块 的 位 置 。 它 也 会 用 新 的 最 后 访问 时 间 更 新 
inode。 读 取 将 进一步 更 新 此 文件 描述 符 在 内 存 中 的 打开 文件 表 ， 更 新 
文件 偏 移 量 ， 以 便 下 一 次 读 取 会 读 取 第 二 个 文件 块 ， 等 等 。 

















补充 : 读 取 不 会 访问 分 配 结构 


我 们 曾 见 过 许多 学 生 对 分 配 结构 (如 位 图 〉 感 到 困惑 。 特 别 
是 ， 许 多 人 经 常 认为 ， 只 是 简单 地 读 取 文件 而 不 分 配 任何 新 
块 时 ， 也 会 查询 位 图 。 不 是 这 样 的 ! 分 配 结构 (如 位 图 〉 只 
有 在 需要 分 配 时 才 会 访问 。inode、 目 录 和 间接 块 具有 完成 读 
请 求 所 需 的 所 有 信息 。inode 已 经 指向 一 个 块 ， 不 需要 再 次 确 
认 它 已 分 配 。 


在 某 个 时 候 ， 文 件 将 被 关闭 。 这 里 要 做 的 工作 要 少 得 多 。 很 明显 ， 文 
Rn 





整个 过 程 如 表 40. 3 所 示 〈 向 下 时 间 递 增 ) 。 在 该 表 中 ， 打 开导 致 了 多 
次 读 取 ， 以 便 最 终 找到 文件 的 inode。 之 后 ， 读 取 每 个 块 需要 文件 系统 
首先 查询 inode， 然 后 读 取 该 块 ， 再 使 用 写 入 更 新 inode 的 最 后 访问 时 
间 字 段 。 花 一 些 时 间 ， 试 着 理解 发 生 了 什么 。 


另外 请 注意 ，open 导 致 的 I/0 量 与 路 径 名 的 长 度 成 正比 。 对 于 路 径 中 的 
每 个 增加 的 目录 ， 我 们 都 必须 读 取 它 的 inode 及 其 数据 。 更 糟糕 的 是 ， 
会 出 现 大 型 目录 。 在 这 里 ， 我 们 只 需要 读 取 一 个 块 来 获取 目录 的 内 
容 ， 而 对 于 大 型 目录 ， 我 们 可 能 需要 读 取 很 多 数据 块 才能 找到 所 需 的 
条 目 。 是 的 ， 读 取 文 件 时 生活 会 变 得 非常 糟 糙 。 你 会 发 现 ， 写 入 一 个 
文件 〈 尤 其 是 创建 一 个 新 文件 ) 更 糟糕 。 





表 40. 3 文件 读 取 时 间 线 (向 下 时 间 递 增 ) 










data inode || root foo bar root foo bar bar bar 
i inode inode data data datal[0] 
data[ll] data[2] 














read() read read 
write 

read() read read 
write 








写 入 磁盘 


写 入 文件 是 一 个 类 似 的 过 程 。 首 先 ， 文 件 必 须 打 开 (如 上 所 述 ) 。 其 
次 ， PO 0 最 后 ， 关 闭 
该 文件 。 


与 读 取 不 同 ， 写 入 文件 也 可 能 会 分 配 (allocate) 一 个 块 〈 除 非 块 被 
履 写 ) 。 当 写 入 一 个 新 文件 时 ， 每 次 写 入 操作 不 仅 需 要 将 数据 写 入 磁 
盘 ， 还 必须 首先 决定 将 哪个 块 分 配给 文件 ， 从 而 相应 地 更 新 磁盘 的 其 
他 结构 〈 例 如 数据 位 图 和 inode) 。 因 此 ， 每 次 写 入 文件 在 逻辑 上 会 导 
人 臻 5 个 I/0: 一 个 读 取 数据 位 图 (然后 更 新 以 标记 新 分 配 的 块 被 使 
用 ) ， 一 个 写 入 位 图 〈 将 它 的 新 状态 存 入 磁 往 ) ， 再 是 两 次 读 取 ， 然 
Fu (用 新 块 的 位 置 更 新 ) ， 最 后 一 次 写 入 真正 的 数据 块 本 


考虑 简单 和 常见 的 操作 (例如 文件 创建 )， 写 入 的 工作 量 更 大 。 要 创 
建 一 个 文件 ， 文 件 系统 不 仅 要 分 配 一 个 inode， 还 要 在 包含 新 文件 的 目 
录 中 分 配 空间 。 这 样 做 的 1/0 工 作 总 量 非常 大 : 一 个 读 取 inode 位 图 





(查找 空闲 inode) ， 一 个 写 入 inode 位 图 (将 其 标记 为 已 分 配 ) ， 一 
个 写 入 新 的 inode 本 身 (初始 化 它 ) ， 一 个 写 入 目录 的 数据 (将 文件 的 


高 级 名 称 链 接 到 它 的 inode 号 ) ， 以 及 一 个 读 写 目录 inode 以 便 更 新 
它 。 如 果 目 录 需 要 增长 以 容纳 新 条 目 ， 则 还 需要 额外 的 IX0《 即 数据 位 
图 和 新 目录 块 ) 。 所 有 这 些 只 是 为 了 创建 一 个 文件 ! 


我 们 来 看 一 个 具体 的 例子 ， 其 中 创建 了 file/foo/bar， 并 且 辐 它 写 入 
了 3 个 块 。 表 40. 4 展示 了 在 open() 〈 创 建文 件 ) 期 间 和 在 3 个 4KB 写 
入 期 间 发 生 的 情况 。 


在 该 表 中 ， 对 磁盘 的 读 取 和 写 入 放 在 导致 它们 发 生 的 系统 调用 之 下 ， 
它们 可 能 发 生 的 大 致 顺序 从 表 的 顶部 到 底部 依次 进行 。 你 可 以 看 到 创 














建 该 文件 需要 多 少 工作 : 在 这 种 情况 下 ， 有 10 次 I/0， 用 于 过 有 历 路 径 
名 ， 然 后 创建 文件 。 你 还 可 以 看 到 每 个 分 配 写 入 需要 5 次 1/0: 一 对 读 
取 和 更 新 inode， 必 一 对 读 取 和 更 新 数据 位 图 ， 最 后 写 入 数据 本 喘 。 文 
件 系 统 如 何以 合理 的 效率 完成 这 些 任 务 ? 





表 40.4 文件 创建 时 间 线 〈 向 下 时 间 递 增 ) 







root foo bar root foo bar bar bar 
inode inode data data data[0] 
inode data[ll] data[2] 














关键 问题 : 如何 降低 文件 系统 1/0 成 本 


即使 是 最 简单 的 操作 ， 如 打开 、 读 取 或 写 入 文件 ， 也 会 产生 
大 量 I/0 操 作 ， 分 散在 磁盘 上 。 文 件 系 统 可 以 做 些 什么 ， 来 降 
低 执行 如 此 多 I/0 的 高 成 本 ? 


40.7 缓存 和 缓冲 


如 上 面 的 例子 所 示 ， 读 取 和 写 入 文件 可 能 是 昂贵 的 ， 会 导致 ( 慢 速 ) 
磁 副 的 许多 1/0。 这 显然 是 一 个 巨大 的 性 能 问题 ， 为 了 弥补 ， 大 多 数 文 
件 系 统 积 极 使 用 系统 内 存 CDRAM) 来 缓存 重要 的 块 。 


想象 一 下 上 面 的 打开 示例 : 没有 缓存 ， 每 个 打开 的 文件 都 需要 对 目录 
层次 结构 中 的 每 个 级 别 至 少 进行 两 次 读 取 (一 次 读 取 相关 目录 的 
inode ， 并 且 至 少 有 一 次 读 取 其 数据 ) 。 使 用 长 路 径 名 〈 例 
如 ，/1/2/3/…/100/file. txt) ， 文 件 系统 只 是 为 了 打开 文件 ， 就 要 
执行 数 百 次 读 取 ! 


早期 的 文件 系统 因此 引入 了 一 个 固定 大 小 的 缓存 (fixed-size 
cache ) 来 保存 常用 的 块 。 正 如 我 们 在 讨论 虚拟 内 存 时 一 样 ，LRU 及 不 
同 变 体 策略 会 决定 哪些 块 保留 在 缓存 中 。 这 个 固定 大 小 的 缓存 通常 会 
在 启动 时 分 配 ， 大 约 占 总 内 存 的 10%。 


然而 ， 这 种 静态 的 内 存 划分 (static partitioning) 可 能 导致 浪费 。 
如 果 文 件 系统 在 给 定 的 时 间 点 不 需要 10% 的 内 存 ， 该 怎么 办 ? 使 用 上 述 
固定 大 小 的 方法 ， 文 件 高 速 缓存 中 的 未 使 用 页 面 不 能 被 重新 用 于 其 他 
一 些 用 途 ， 因 此 导致 浪费 。 


相 比 之 下 ， 现 代 系 统 采 用 动态 划分 (dynamic partitioning) 方法 。 
具体 来 说 ， 许 多 现代 操作 系统 将 虚拟 内 存 页 面 和 文件 系统 页 面 集成 到 
统一 页 面 缓存 中 (unified page cache) [S00] 。 通 过 这 种 方式 ， 可 以 
在 虚拟 内 存 和 文件 系统 之 间 更 灵活 地 分 配 内 存 ， 有 具体 取决 于 在 给 定时 
间 哪 种 内 存 需 要 更 多 的 内 存 。 


现在 想象 一 下 有 绥 存 的 文件 打开 的 例子 。 第 一 次 打开 可 能 会 产生 很 多 
1/0 流 量 ， 来 读 取 目录 的 inode 和 数据 ， 但 是 随后 文件 打开 的 同一 文件 


























(或 同一 目录 中 的 文件 ) ， 大 部 分 会 命中 缓存 ， 因 此 不 需要 1/0。 


我 们 也 考虑 一 下 缓存 对 写 入 的 影响 。 尽 管 可 以 通过 足够 大 的 缓存 完全 
避免 读 取 I/0， 但 写 入 流量 必须 进入 和 磁盘， 才能 实现 持久 。 因 此 ， 高 速 
缓存 不 能 减少 写 入 流量 ， 像 对 读 取 那样 。 虽 然 这 么 说 ， 写 缓冲 (write 
buffering， 人 们 有 时 这 么 说 ) 肯定 有 许多 人 优点。 首先， 通过 延迟 写 
和 入， 文件 系统 可 以 将 一 些 更 新 编 成 一 批 (batch) ， 放 入 一 组 较 小 的 
I/0 中 。 例 如 ， 如 果 在 创建 一 个 文件 时 ，inode 位 图 被 更 新 ， 稍 后 在 创 
建 另 一 个 文件 时 又 被 更 新 ， 则 文件 系统 会 在 第 一 次 更 新 后 延迟 写 入 ， 
从 而 节省 一 次 I/0。 其 次 ， 通 过 将 一 些 写 入 缓冲 在 内 存 中 ， 系 统 可 以 调 
度 (schedule) 后 续 的 /0， 从 而 提高 性 能 。 最 后 ， 一 些 写 入 可 以 通过 
拖延 来 完全 避免 。 例 如 ， 如 果 应 用 程序 创建 文件 并 将 其 删除 ， 则 将 文 
件 创建 延迟 写 入 磁盘 ， 可 以 完全 避免 (avoid) 写 入 。 在 这 种 情况 下 ， 
懒惰 〈 在 将 块 写 入 磁盘 时 ) 是 一 种 美德 。 











提示 : 理解 静态 划分 与 动态 划分 


在 不 同 客户 端 /用 户 之 间 划 分 资源 时 ， 可 以 使 用 静态 划分 
( static partitioning ) 或 动态 划分 ( dynamic 
partitioning) 。 静 态 方法 简单 地 将 资源 一 次 分 成 固定 的 比 
例 。 例 如 ， 如 果 有 两 个 可 能 的 内 存 用 户 ， 则 可 以 给 一 个 用 户 
固定 的 内 存 部 分 ， 其 余 的 则 分 配给 另 一 个 用 户 。 动 态 方法 更 
灵活 ， 随 着 时 间 的 推移 提供 不 同 数量 的 资源 。 例 如 ， 一 个 用 
户 可 能 会 在 一 段 时 间 内 获得 更 高 的 磁盘 带宽 百分比 ， 但 是 之 
后 ， 系 统 可 能 会 切换 ， 决 定 为 不 同 的 用 户 提 供 更 大 比例 的 可 
用 磁盘 带宽 。 


每 种 方法 都 有 其 优点 。 静 态 划 分 可 确保 每 个 用 户 共 至 一 些 资 
源 ， 通 常 提供 更 可 预测 的 性 能 ， 也 更 易于 实现 。 动 态 划 分 可 
以 实现 更 好 的 利用 率 (通过 让 资源 莉 乏 的 用 户 占 用 其 他 空闲 
资源 ) ， 但 实现 起 来 可 能 会 更 复杂 ， 并 且 可 能 导致 空闲 资源 
被 其 他 用 户 占 用 ， 然 后 在 需要 时 花费 很 长 时 间 收 回 ， 从 而 导 
致 这 些 用 户 性 能 很 差 。 像 通常 一 样 ， 没 有 最 好 的 方法 。 你 应 
该 考虑 手头 的 问题 ， 并 确定 哪 种 方法 最 适合 。 实 际 上 ， 你 不 
是 应 该 一 直 这 样 做 吗 ? 








由 于 上 述 原 因 ， 大 多 数 现 代 文 件 系 统 将 写 入 在 内 存 中 缓冲 5 一 30s， 这 
代表 了 另 一 种 折 中 : 如 果 系 统 在 更 新 传递 到 磁盘 之 前 骨 滥 ， 更 新 就 会 
丢失 。 但 是 ， 将 内 存 写 入 时 间 延 长 ， 则 可 以 通过 批 处 理 、 调 度 甚 至 避 
免 写 入 ， 提 高 性 能 。 


某 些 应 用 程序 〈 如 数据 库 ) 不 喜欢 这 种 折 中 。 因 此 ， 为 了 避免 由 于 写 
入 缓冲 导致 的 意外 数据 丢失 ， 它 们 就 强制 写 入 磁盘 ， 通 过 调用 
fsync () ， 使 用 绕 过 缓存 的 直接 I/0 (direct 1/0) 接口 ， 或 者 使 用 原 
台 磁 得 (raw disk) 接口 并 完全 避免 使 用 文件 系统 上 1。 昌 然 大 多 数 应 
用 程序 能 接受 文件 系统 的 折 中 ， 但 是 如 果 默 认 设 置 不 能 令 人 满意 ， 那 
么 有 足够 的 控制 可 以 让 系统 按照 你 的 要 求 进行 操作 。 








提示 : 了 解 耐用 性 /性 能 权衡 


存储 系统 通常 会 回 用 户 提供 耐用 性 /性 能 折 中 。 如 果 用 户 希 望 
写 入 的 数据 立即 持久 ， 则 系统 必须 尽 全 力 将 新 写 入 的 数据 提 
交 到 磁盘 ， 因 此 写 入 速度 很 慢 〈 但 是 安全 ) 。 但 是 ， 如 果 用 
户 可 以 容忍 丢失 少量 数据 ， 系 统 可 以 缓冲 内 存 中 的 写 入 一 段 
时 间 ， 然 后 将 其 写 入 磁盘 《在 后 合 ) 。 这 样 做 可 以 使 写 入 快 
速 完成 ， 从 而 提高 感受 到 的 性 能 。 但 是 ， 如 果 发 生计 沉 ， 尚 
未 提交 到 磁盘 的 写 入 操作 将 丢失 ， 因 此 需要 进行 折 中 。 要 理 
解 如 何 正确 地 进行 这 种 折 中 ， 最 好 了 解 使 用 存储 系统 的 应 用 
程序 需要 什么 。 例 如 ， 虽 然 丢 失 网 络 浏览 万 下 载 的 最 后 几 张 
图 像 可 以 忍受 ， 但 丢失 部 分 数据 库 交 易 、 让 你 的 银行 账户 不 
能 增加 资金 ， 这 不 能 忍 。 当 然 ， 除 非 你 很 有 钱 。 如 果 你 很 有 
钱 ， 为 什么 要 特别 关心 积 攒 每 一 分 钱 ? 














40.8 小 结 


我 们 已 经 看 到 了 构建 文件 系统 所 需 的 基本 机 制 。 需 要 有 关于 每 个 文件 
元 数据 ) 的 一 些 信息 ， 这 通常 存储 在 名 为 inode 的 结构 中 。 目 录 只 是 


“存储 名 称 一 inode 号 ”映射 的 特定 类 型 的 文件 。 其 他 结构 也 是 需要 
的 。 例 如 ， 文 件 系 统 通常 使 用 诸如 位 图 的 结构 ， 来 记录 哪些 inode 或 数 
据 块 是 空闲 的 或 已 分 配 的 。 


文件 系统 设计 的 极 好 方面 是 它 的 自由 。 接 下 来 的 章节 中 探讨 的 文件 系 
统 ， 都 利用 了 这 种 自由 来 优化 文件 系统 的 茶 些 方面 。 显 然 ， 我 们 还 有 
很 多 尚未 探讨 的 策略 决定 。 例 如 ， 创 建 一 个 新 文件 时 ， 它 应 该 放 在 磁 
盘 上 的 什么 位 置 ? 这 一 策略 和 其 他 策略 会 成 为 未 来 章节 的 主题 吗 ? 
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作业 


使 用 工具 vsfs. py 来 研究 文件 系统 状态 如 何 随 着 各 种 操作 的 发 生 而 改 
变 。 文 件 系 统 以 空 状态 开始 ， 只 有 一 个 根 目 录 。 模 拟 发 生 时 ， 会 执行 
0 





问题 





1. 用 一 些 不 同 的 随机 种 子 〈 比 如 17、18、19、20) 运行 模拟 器 ， 看 看 
你 是 否 能 确定 每 次 状态 变化 之 间 一 定 发 生 了 哪些 操作 。 


2. 现在 使 用 不 同 的 随机 种 子 〈 比 如 21、22、23、24) ， 但 使 用 -标志 
运行 ， 这 样 做 可 以 让 你 在 显示 操作 时 猜测 状态 的 变化 。 关 于 inode 和 数 
据 块 分 配 算法 ， 根 据 它 们 喜欢 分 配 的 块 ， 你 可 以 得 出 什么 结论 ? 


3. 现在 将 文件 系统 中 的 数据 块 数 量 减 少 到 非常 少 〈 比 如 两 个 ， 并 用 
100 个 左右 的 请 求 来 运行 模拟 器 。 在 这 种 高 度 约束 的 布局 中 ， 哪 些 类 型 
的 文件 最 终 会 出 现在 文件 系统 中 ? 什么 类 型 的 操作 会 失败 ? 


4. 现在 做 同样 的 事情 ， 但 针对 inodes。 只 有 非常 少 的 inode， 什 么 类 
型 的 操作 才能 成 功 ? 哪些 通常 会 失败 ? 文件 系统 的 最 终 状 态 可 能 是 什 


么 ? 








[1]， 选 修一 门 数据 库 课程 ， 了 解 更 多 有 关 传 统 数据 库 的 知识 ， 以 及 它 
们 过 去 对 避 开 操作 系统 和 自己 控制 一 切 的 坚持 。 但 要 小 心 ! 有 些 搞 数 
据 库 的 人 总 是 试图 说 操作 系统 的 坏话 。 


第 41 章 ”局 部 性 和 快速 文件 系统 


当 UNIX 操 作 系 统 首次 引入 时 ，UNIX“ 魔 法 师 ”Ken Thompson 编 写 了 第 
一 个 文件 系统 。 我 们 称 之 为 “ 老 UNIX 文 件 系统 ”， 它 非常 简单 ， 基 本 
上 ， 它 的 数据 结构 在 磁盘 上 看 起 来 像 这 样 : 





as 


超级 块 CS) 包含 有 关 整 个 文件 系统 的 信息 : 卷 的 大 小 、 有 多 少 
inode、 指 同 空 闲 列 表 块 的 头 部 的 指针 等 等 。 磁 盘 的 inode 区 域 包含 文 
件 系统 的 所 有 inode。 最 后 ， 大 部 分 磁盘 都 被 数据 块 占用 。 


老 文件 系统 的 好 处 在 于 它 很 简单 ， 支 持 文 件 系 统 试图 提供 的 基本 抽 
象 : 文件 和 目录 层次 结构 。 与 过 去 笨拙 的 基于 记录 的 存储 系统 相 比 ， 
这 个 易于 使 用 的 系统 真正 回 前 迈 出 了 一 步 。 与 早期 系统 提供 的 更 简单 
的 单 层 次 层次 结构 相 比 ， 目 录 层 次 结构 是 真正 的 进步 。 











41.1 问题 : 性 能 不 佳 


问题 是 : 性 能 很 糟糕 。 根 据 Kirk McKusick 和 他 在 伯克利 的 同事 
[MJLF84] 的 测量 ， 性 能 开始 就 不 行 ， 随 着 时 间 的 推移 变 得 更 糟 ， 直 到 
文件 系统 仅 提 供 总 磁盘 带宽 的 2%1 


主要 问题 是 老 UNIX 文 件 系 统 将 磁盘 当成 随机 存 取 内 存 。 数 据 迪 布 各 
处 ， 而 不 考虑 保存 数据 的 介质 是 磁盘 的 事实 ， 因 此 具有 实 实在 在 的 、 
昂贵 的 定位 成 本 。 例 如 ， 文 件 的 数据 块 通常 离 其 inode 非 常 远 ， 因 此 每 
当 第 一 次 读 取 inode 然 后 读 取 文 件 的 数据 块 〈 非 常常 见 的 操作 ) 时 ， 就 


会 导致 昂贵 的 寻 道 。 








更 糟糕 的 是 ， 文 件 系统 最 终 会 变 得 非常 碎片 化 《〈fragmented) ， 因 为 
空闲 空间 没有 得 到 精心 管理 。 空 闲 列 表 了 最 终 会 指 癌 过 布 磁盘 的 一 堆 
块 ， 并 且 随 着 文件 的 分 配 ， 它 们 只 会 占用 下 一 个 空闲 块 。 结 果 是 在 磁 
盘 上 来 回访 问 逻 辑 上 连续 的 文件 ， 从 而 大 大 降低 了 性 能 。 


例如 ， 假 设 以 下 数据 块 区 域 包含 4 个 文件 (A、B、C 和 D) ， 每 个 文件 大 
小 为 两 个 块 : 


DOODE 


如 果 删 除 B 和 D， 则 生成 的 布局 为 : 








如 你 所 见 ， 可 用 空间 被 分 成 两 块 构成 的 两 大 块 ， 而 不 是 很 好 的 连续 4 
块 。 假 设 我 们 现在 希望 分 配 一 个 大 小 为 4 块 的 文件 E: 





| E3 E4 





你 可 以 看 到 会 发 生 什么 : E 分 散在 磁盘 上 ， 因 此 ， 在 访问 E 时 ， 无 法 从 
磁盘 获得 峰值 “顺序 ) 性 能 。 你 首先 读 取 E1 和 E2， 然 后 寻 道 ， 再 读 取 
E3 和 E4。 这 个 碎片 问题 一 直 发 生 在 老 UNIX 文 件 系 统 中 ， 并 且 会 影响 性 
能 。【〔 插 一 句 : 这 个 问题 正 是 磁盘 人 碎片 整理 工具 要 解决 的 。 它 们 将 重 
新 组 织 磁盘 数据 以 连续 放置 文件 ， 并 为 让 空闲 空间 成 为 一 个 或 几 个 连 
续 的 区 域 ， 移 动 数据 ， 然 后 重 写 inode 等 以 反映 变化 。) 


另 一 个 问题 : 原始 块 大 小 太 小 〈512 字 节 ) 。 因 此 ， 从 磁盘 传输 数据 本 
质 上 是 低 效 的 。 较 小 的 块 是 好 的 ， 因 为 它们 最 大 限度 地 减少 了 内 部 从 





片 (internal fragmentation， 块 内 的 浪费 ) ， 但 是 由 于 每 个 块 可 能 
需要 一 个 定位 开销 来 访问 它 ， 因 此 传输 不 佳 。 我 们 可 以 总 结 如 下 问 


题 。 





关键 问题 : 如 何 组 织 磁盘 数据 以 提高 性 能 


如 何 组 织 文 件 系 统 数据 结构 以 提高 性 能 ? 在 这 些 数据 结构 之 
上 ， 需 要 哪些 类 型 的 分 配 策略 ? 如 何 让 文件 系统 具有 “磁盘 


i 5 六 
意 误 ”3? 


41.2 FFS: 磁盘 意识 是 解决 方案 


伯克利 的 一 个 小 组 决定 建立 一 个 更 好 、 更 快 的 文件 系统 ， 他 们 聪明 地 
称 之 为 快速 文件 系统 (Fast File System，FFS) 。 思 路 是 让 文件 系统 
的 结构 和 分 配 策略 具有 “和 破 盘 意识 ”， 从 而 提高 性 能 ， 这 正 是 他 们 所 
做 的 。 因 此 ，FFS 进 入 了 文件 系统 研究 的 新 时 代 。 通 过 保持 与 文件 系统 
相同 的 接口 〈 相 同 的 API， 包 括 open() 、fread(0) 、write(O 、close(0 和 
其 他 文件 系统 调用 ) ， 但 改变 内 部 实现 ， 作 者 为 新 文件 系统 的 构建 铺 
平 了 道路 ， 这 方面 的 工作 今天 仍 在 继续 。 事 实 上， 上 所 有 现代 文件 系统 
都 遵循 现 有 的 接口 〈 从 而 保持 与 应 用 程序 的 兼容 性 ) ， 同 时 为 了 性 
能 、 可 靠 性 或 其 他 原因 ， 改 变 其 内 部 实现 。 


41.3 组 织 结构 : 柱 面 组 


第 一 步 是 更 改 人 磁盘 上 的 结构 。FFS 将 磁盘 划分 为 一 些 分 组 ， 称 为 柱 面 组 
(cylinder group， 而 一 些 现 代 文 件 系 统 ， 如 Linux ext2 和 ext3， 就 
称 它们 为 块 组 ， 即 block group) 。 因 此 ， 我 们 可 以 想象 一 个 具有 10 个 
柱 面 组 的 磁盘 : 


malelolels|s|ole le 





这 些 分 组 是 FFS 用 于 改善 性 能 的 核心 机 制 。 通 过 在 同一 组 中 放置 两 个 文 
件 ，FFS 可 以 确保 先后 访问 两 个 文件 不 会 导致 罕 越 磁盘 的 长 时 间 寻 道 。 


FFS 需 要 能 够 在 每 个 组 中 分 配 文件 和 目录 。 每 个 组 看 起 来 像 这 





我 们 现在 描述 一 个 柱 面 组 的 构成 。 出 于 可 靠 性 原因 ， 每 个 组 中 都 有 超 
级 块 (super block) 的 一 个 副本 例如， 如果 一 个 被 损坏 或 划 伤 ， 你 
仍然 可 以 通过 使 用 其 中 一 个 副本 来 挂 载 和 访问 文件 系统 ) 。 





在 每 个 组 中 ， 我 们 需要 记录 该 组 的 inode 和 数据 块 是 否 已 分 配 。 每 组 的 

inode 位 图 (inode bitmap，ib) 和 数据 位 图 (data bitmap，db) 起 
到 了 这 个 作用 ， 分 别针 对 每 组 中 的 inode 和 数据 块 。 位 图 是 管理 文件 系 

i x 间 的 绝 佳 方法 ， 因 为 很 容易 找到 大 块 可 用 空间 并 将 其 分 配 
给 文件 ， 这 可 能 会 避免 上 日 文件 系统 中 空闲 列表 的 某 些 碎片 问题 。 


最 后 ，inode 和 数据 块 区 域 就 像 之 前 的 极 简 文 件 系统 一 样 。 像 往常 一 
样 ， 每 个 柱 面 组 的 大 部 分 都 包含 数据 块 。 





补充 : FFS 文 件 创建 


例如 ， 考 虑 在 创建 文件 时 必须 更 新 哪些 数据 结构 。 对 于 这 个 
例子 ， 假 设 用 户 创 建 了 一 个 新 文件 /foo/bar. txt， 并 且 该 文 
件 长 度 为 一 个 块 〈4KB) 。 该 文件 是 新 的 ， 因 此 需要 一 个 新 的 
inode。 因 此 ，inode 位 图 和 新 分 配 的 inode 都 将 写 入 磁盘 。 该 
文件 中 还 包含 数据 ， 因 此 也 必须 分 配 。 因 此 (最终) 将 数据 
位 图 和 数据 块 写 入 人 磁盘。 因此 ， 会 对 当前 柱 面 组 进行 至 少 4 次 








写 入 《回想 一 下 ， 在 写 入 发 生 之 前 ， 这 些 写 入 可 以 在 存储 器 
中 缓冲 一 段 时 间 〉 。 但 这 并 不 是 全 部 ! 特别 是 ， 在 创建 新 文 
件 时 ， 我 们 还 必须 将 文件 放 在 文件 系统 层次 结构 中 。 因 此 ， 
必须 更 新 目录 。 具 体 来 说 ， 必 须 更 新 父 目录 foo， 以 添加 
bar. txt 的 条 目 。 此 更 新 可 能 放 入 foo 现 有 的 数据 块 ， 或 者 需 
要 分 配 新 块 (包括 关联 的 数据 位 图 ) 。 还 必须 更 新 foo 的 
inode， 以 反映 目录 的 新 长 度 以 及 更 新 时 间 字 段 〈 例 如 最 后 修 
改 时 间 ) 。 总 的 来 说 ， 创 建 一 个 新 文件 需要 做 很 多 工作 ! 也 
许 下 次 你 这 样 做 ， 你 应 该 更 加 心怀 感激 ， 或 者 至 少 感到 惊 
讶 ， 一 切 都 运作 良好 。 











41.4 策略 : 如 何 分 配 文件 和 目录 


有 了 这 个 分 组 结构 ，FFS 现 在 必须 决定 ， 如 何在 磁盘 上 放置 文件 和 目录 
以 及 相关 的 元 数据 ， 以 提高 性 能 。 基 本 的 咒语 很 简单 : 相关 的 东西 放 
一 起 《以 此 推论 ， 无 关 的 东西 分 开放 ) 。 


因此 ， 为 了 遵守 规则 ，FFS 必 须 决 定 什 么 是 “相关 的 ”， 并 将 它们 置 于 
同一 个 区 块 组 内 。 相 反 ， 不 相关 的 东西 应 该 放 在 不 同 的 块 组 中 。 为 实 
现 这 一 目标 ，FFS 使 用 了 一 些 简单 的 放置 推断 方法 。 


首先 是 目录 的 放置 。FFS 采 用 了 一 种 简单 的 方法 : 找到 分 配 数量 少 的 柱 
面 组 〈 因 为 我 们 希望 跨 组 平衡 目录 ) 和 大 量 的 自由 inode (因为 我 们 希 
望 随 后 能 够 分 配 一 堆 文 件 ) ， 并 将 目录 数据 和 inode 放 在 该 分 组 中 。 当 
然 ， 这 里 可 以 使 用 其 他 推断 方法 〈 例 如 ， 考 虑 空闲 数据 块 的 数量 ) 。 


对 于 文件 ，FFS 做 两 件 事 。 首 先 ， 它 确保 〈 在 一 般 情况 下 ) 将 文件 的 数 

据 块 分 配 到 与 其 inode 相 同 的 组 中 ， 从 而 防止 inode 和 数据 之 间 的 长 时 
间 寻 道 〈 如 在 老 文 件 系统 中 ) 。 其 次 ， 它 将 位 于 同一 目录 中 的 所 有 文 

件 ， 放 在 它们 所 在 目录 的 柱 面 组 中 。 因 此 ， 如 果 用 户 创建 了 4 个 文 

件 ，/dirl/1. txt、 /dirl/2. txt、 /dirl/3. txt 和 /dir99/4. txt, FFS 

II 
:ee 








应 该 注意 的 是 ， 这 些 推断 方法 并 非 基 于 对 文件 系统 流量 的 广泛 研究 ， 
或 任何 特别 细致 的 研究 。 相 反 ， 它 们 建立 在 良好 的 老式 常识 基础 之 上 
(这 不 就 是 CS 代表 的 吗 ? ) 。 目 录 中 的 文件 通常 一 起 访问 〈 想 象 编 译 
一 扒 文 件 然后 将 它们 链接 到 单个 可 执行 文件 中 ) 。 因 为 它们 确保 了 相 
关 文 件 之 间 的 寻 道 时 间 很 短 ，FFS 通 常会 提高 性 能 。 





41.5 测量 文件 的 局 部 性 





为 了 更 好 地 理解 这 些 推 断 方 法 是 否 有 意义 ， 我 们 决定 分 析 文 件 系统 访 
问 的 一 些 跟 踩 记录 ， 看 看 是 否 确实 存在 命名 空间 的 局 部 性 。 出 于 某 种 
原因 ， 文 献 中 似乎 没有 对 这 个 主题 进行 过 很 好 的 研究 。 


具体 来 说 ， 我 们 进行 了 SEER 跟 踪 [K94] ， 并 分 析 了 目录 树 中 不 同文 件 的 
访问 有 多 “遥远 ”。 例 如 ， 如 果 打 开 文 件 E， 然 后 跟踪 到 它 重 新 打开 
《在 打开 任何 其 他 文件 之 前 ) ， 则 在 目录 树 中 打开 的 这 两 个 文件 之 间 
的 距离 为 零 (因为 它们 是 同一 文件 ) 。 如 果 打 开 目 录 dir 中 的 文件 
f〈 即 dir/f〉， 然 后 在 同一 目录 中 打开 文件 g( 即 dir/g〉， 则 两 个 文 
件 访问 之 间 的 距离 为 1， 因 为 它们 共享 相同 的 目录 ， 但 不 是 同一 个 文 
件 。 换 句 话 说， 我 们 的 距离 度量 标准 衡量 为 了 找到 两 个 文件 的 共同 祖 
先 ， 必 须 在 目录 树 上 走 多 远 。 它 们 在 树 上 越 靠 近 ， 度 量 值 越 低 。 


图 41. 1 展示 了 SEER 跟 踪 中 看 到 的 局 部 性 ， 针 对 SEER 和 集群 中 所 有 工作 站 
上 的 所 有 SEER 跟 踪 。 其 中 的 x 轴 是 差异 度量 值 ，y 轴 是 具有 该 差异 值 的 
文件 打开 的 累积 百分比 。 具 体 来 说 ， 对 于 SEER 跟 踪 ( 图 中 标记 为 “ 跟 
踪 ”) ， 你 可 以 看 到 大 约 7% 的 文件 访问 是 先前 打开 的 文件 ， 并 且 近 40% 
的 文件 访问 是 相同 的 文件 或 同一 目录 中 的 文件 〈 即 0 或 1 的 差异 值 ) 。 
因此 ，FFS 的 局 部 性 假设 似乎 有 意义 《至少 对 于 这 些 跟踪 ) 。 


有 趣 的 是 ， 男 外 25% 左 右 的 文件 访问 是 距离 为 2 的 文件 。 当 用 户 以 多 级 
方式 构造 一 组 相关 目录 ， 并 不 断 在 它们 之 间 跳 转 时 ， 就 会 发 生 这 种 类 
型 的 局 部 性 。 例 如 ， 如 果 用 户 有 一 个 src 目 录 ， 并 将 目标 文件 〈. o 文 
件 ) 构建 到 obj 目 录 中 ， 并 且 这 两 个 目录 都 是 主 proj 目 录 的 子 目 录 ， 则 
常见 访问 模式 就 是 proj/src/foo .c 后 跟着 proj/obj/foo.0。 这 两 个 访 
问 之 间 的 距离 是 2， 因 为 proj 是 共同 的 祖先 。FFS 在 其 策略 中 没有 考虑 
这 种 类 型 的 局 部 性 ， 因 此 在 这 种 访问 之 间 会 发 生 更 多 的 寻 道 。 
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图 41. 1 FFS 局 部 性 的 SEER 跟 踪 


为 了 进行 比较 ， 我 们 还 展示 了 “随机 ”跟踪 的 局 部 性 。 我 们 以 随机 的 
顺序 ， 从 原 有 的 SEER 跟 踪 中 选择 文件 ， 计 算 这 些 随机 顺序 访问 之 间 的 
距离 度量 值 ， 从 而 生成 随机 跟踪 。 如 你 所 见 ， 随 机 跟踪 中 的 命名 空间 
局 部 性 较 少 ， 和 预期 的 一 样 。 但 是 ， 因 为 最 终 每 个 文件 共享 一 个 共同 











FARA 


41.6 大 文件 例外 


在 FFS 中 ， 文 件 放 置 的 一 般 策 略 有 一 个 重要 的 例外 ， 它 出 现在 大 文件 
中 。 如 果 没 有 不 同 的 规则 ， 大 文件 将 填 满 它 首 先 放 入 的 块 组 〈 也 可 能 
填 满 其 他 组 ) 。 以 这 种 方式 填充 块 组 是 不 符合 需要 的 ， 因 为 它 妨碍 了 
es 


因此 ， 对 于 大 文件 ，FFS 执 行 以 下 操作 。 在 将 一 定数 量 的 块 分 配 到 第 一 
个 块 组 (例如 ，12 个 块 ， 或 inode 中 可 用 的 直接 指针 的 数量 ) 之 后 ， 
FFS 将 文件 的 下 一 个 “大 ” 块 〈 即 第 一 个 间接 块 指向 的 那些 部 分 〉 放 在 
另 一 个 块 组 中 《可 能 因为 它 的 利用 率 低 而 选择 ) 。 然 后 ， 文 件 的 下 一 
个 块 放 在 男 一 个 不 同 的 块 组 中 ， 依 此 类 推 。 

让 我 们 看 一 些 图 片 ， 更 好 地 理解 这 个 策略 。 如 果 没 有 大 文件 例外 ， 单 
个 大 文件 会 将 其 所 有 块 放 入 磁盘 的 一 部 分 。 我 们 使 用 一 个 包含 10 个 块 
的 文件 的 小 例子 ， 来 直观 地 说 明 该 行为 。 


以 下 是 FFS 没 有 大 文件 例外 时 的 图 景 : 


G0 ol G2 G3 G4 G5 G6 G7 G8 G9 


01234 
9596789 


有 了 大 文件 例外 ， 我 们 可 能 会 看 到 像 这 样 的 情形 ， 文 件 以 大 块 的 形式 
分 布 在 磁盘 上 : 


G0 G1 G2 G3 G4 6 G6 G7 G8 G9 
89 01 23 45 67 


聪明 的 读者 会 注意 到 ， 在 磁盘 上 分 散文 件 块 会 损害 性 能 ， 特 别 是 在 顺 
序 文件 访问 的 相对 常见 的 情况 下 《例如 ， 当 用 户 或 应 用 程序 按 顺序 读 
取 块 0 一 9 时 ) 。 你 是 对 的 ! 确实 会 。 我 们 可 以 通过 仔细 选择 大 块 大 
小 ， 来 改善 这 一 点 。 


具体 来 说 ， 如 果 大 块 大 小 足够 大 ， 我 们 大 部 分 时 间 仍 然 花 在 从 磁盘 伟 
输 数据 上 ， 而 在 大 块 之 间 寻 道 的 时 间 相 对 较 少 。 每 次 开销 做 更 多 工 
作 ， 从 而 减少 开销 ， 这 个 过 程 称 为 摊 销 Camortization) ， 它 是 计算 
机 系统 中 的 常用 技术 。 


举 个 例子 : 假设 磁盘 的 平均 定位 时 间 ( 即 寻 道 和 旋转 ) 是 10ms 。 进 一 
步 假 设 磁 盘 以 40 MB/s 的 速率 传输 数据 。 如 果 我 们 的 目标 是 花费 一 半 的 
时 间 来 寻找 数据 块 ， 一 半 时 间 传 输 数 据 〈( 从 而 达到 峰值 磁盘 性 能 的 
50%) ， 那 么 需要 每 10ms 定 位 开销 导致 10ms 的 传输 数据 。 所 以 问题 就 变 
成 了 : 为 了 在 传输 中 花费 10ms， 大 块 必须 有 多 大 ? 简单 ， 只 需 使 用 数 
学 ， 特 别 是 我 们 在 磁盘 章节 中 提 到 的 量 纲 分 析 : 


40MB” 1024KB ls 
x x x1 ;二 109.6KB 
pe i (41. 1) 




















基本 上 ， 这 个 等 式 是 说 : 如 果 你 以 40 MB/s 的 速度 传输 数据 ， 每 次 寻找 
时 只 需要 传输 409. 6KB， 就 能 花费 一 半 的 时 间 寻 找 ， 一 半 的 时 间 传 输 。 
同样 ， 你 可 以 计算 达到 90% 峰 值 带 宽 所 需 的 块 大 小 (结果 大 约 为 
3. 69MB) ， 甚 至 达到 99% 的 峰值 带宽 〈40. 6MB! ) 。 正 如 你 所 看 到 的 ， 
越 接近 峰值 ， 这 些 块 就 越 大 《〈 图 41. 2 展示 了 这 些 值 ) 。 





切 据 【上 所 请 大 莱 大 小 ) 


摊 销 的 挑战 
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图 41. 2 摊 销 














: 大 块 必须 多 大 


但 是 ，FFS 没 有 使 用 这 种 类 型 的 计算 来 跨 组 分 布 大 文件 。 相 反 ， 它 采用 

了 一 种 简单 的 方法 ， 基 于 inode 本 身 的 结构 。 前 12 个 直接 块 与 inode 放 

在 同一 组 中 。 每 个 后 续 的 间接 块 ， 以 及 它 指 回 的 所 有 块 都 放 在 不 同 的 

组 中 。 如 果 块 大 小 为 4KB， 磁 盘 地 址 是 32 位 ， 则 此 策略 意味 着 文件 的 每 

PE 
前 48KB。 


我 们 应 该 注意 到 ， 磁 盘 驱 动 器 的 趋势 是 传输 速率 相当 快 ， 因 为 磁盘 制 
造 商 擅长 将 更 多 位 填塞 到 同一 表面 。 但 驱动 器 的 机 械 方面 与 寻 道 相关 
(磁盘 恬 速 度 和 旋转 速度 ) ， 改 善 相 当 缓 慢 [P98] 。 这 意味 着 随 着 时 间 
的 推移 ， 机 械 成 本 变 得 相对 昂贵 ， 因 此 ， 为 了 挫 销 所 述 成 本 ， 你 必须 
在 寻 道 之 间 传 输 更 多 数据 。 











41.7 关于 FFS 的 其 他 几 件 事 


FFS 也 引入 了 一 些 其 他 创新 。 特 别 是 ， 设 计 人 员 非 常 担心 容纳 小 文件 。 
事实 证 明 ， 当 时 许多 文件 大 小 为 2KB 左 右 ， 使 用 4KB 块 虽然 有 利于 传输 
数据 ， 但 空间 效率 却 不 太 好 。 因 此 ， 在 典型 的 文件 系统 上 ， 这 种 内 部 
人 碎片 (internal fragmentation) 可 能 导致 大 约 一 半 的 磁盘 浪费 。 


FFS 设 计 人 员 采 用 很 简单 的 解决 方案 解决 了 这 个 问题 。 他 们 决定 引入 子 
块 (sub-block) ， 这 些 子 块 有 512 字 节 ， 文 件 系统 可 以 将 它们 分 配给 
文件 。 因 此 ， 如 果 你 创建 了 一 个 小 文件 〈 比 如 大 小 为 IKB) ， 它 将 占用 
两 个 子 块 ， 因 此 不 会 浪费 整个 4KB 块 。 随 着 文件 的 增长 ， 文 件 系 统 将 继 
续 为 其 分 配 512 字 节 的 子 块 ， 直 到 它 达 到 完整 的 4B 数据 。 此 时 ，FFS 将 
找到 一 个 4KB 块 ， 将 子 块 复制 到 其 中 ， 并 释放 子 块 以 备 将 来 使 用 。 


你 可 能 会 发 现 这 个 过 程 效率 低下 ， 文 件 系统 需要 大 量 的 额外 工作 〈 特 
别 是 执行 复制 的 大 量 额外 I/0)〉 。 你 又 对 了 ! 因此 ，FFS 通 常 通过 修改 
libc 库 来 避免 这 种 异常 行为 。 该 库 将 缓冲 写 入 ， 然 后 以 4KB 块 的 形式 将 
它们 发 送 到 文件 系统 ， 从 而 在 大 多 数 情 况 下 完全 避免 子 块 的 特殊 情 
况 。 


FFS 引 入 的 第 二 个 巧妙 方法 ， 是 针对 性 能 进行 优化 的 磁盘 布局 。 那 时 候 
《在 SCSI 和 其 他 更 现代 的 设备 接口 之 前 》)， 磁 盘 不 太 复 杂 ， 需 要 主机 











CPU 以 更 加 亲 力 杀 为 的 方式 来 控制 它们 的 操作 。 当 文件 放 在 磁盘 的 连续 
局 区 上 时 ，FFS 遇 到 了 问题 ， 如 图 41. 3 左 图 所 示 。 


具体 来 说 ， 在 顺序 读 取 期 间 出 现 了 问题 。FFS 首 先 发 出 一 个 请 求 ， 读 取 
块 0。 当 读 取 完成 时 ，FFS 同 块 1 发 出 读 取 ， 为 时 已 晚 : 块 1 已 在 磁头 下 
方 旋转 ， 现 在 对 块 1 的 读 取 将 导致 完全 旋转 。 


FFS 使 用 不 同 的 布局 解决 了 这 个 问题 ， 如 图 41.3( 右 图 ) 所 示 。 通 过 每 
次 跳 过 一 块 〈 在 这 个 例子 中 ) ， 在 下 一 块 经 过 磁头 之 前 ，FFS 有 足够 的 
时 间 发 出 请 求 。 实 际 上 ，FFS 足 够 聪明 ， 能 够 确定 特定 磁盘 在 布局 时 应 
跳 过 多 少 块 ， 以 避免 额外 的 旋转 。 这 种 技术 称 为 参数 化 ， 因 为 FFS 会 找 
出 磁盘 的 特定 性 能 参数 ， 并 利用 它们 来 确定 准确 的 交错 布局 方案 。 














图 41. 3 FFS: 标准 与 参数 化 放置 
: 这 个 方案 毕竟 不 太 好 。 实 际 上 ， 使 用 这 种 类 型 的 布局 只 
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能 获得 50% 的 峰值 带宽 ， 因 为 你 必须 绕 过 每 个 轨道 两 次 才能 读 取 每 个 块 
一 次 。 幸 和 运 的 是 ， 现 代 磁 盘 更 加 智能 : 它们 在 内 部 读 取 整 个 磁道 并 将 
其 缓冲 在 内 部 磁盘 缓存 中 (由 于 这 个 原因 ， 通 常 称 为 磁道 绥 冲 区 ， 
track buffer) 。 然 后 ， 在 对 轨道 的 后 续 读 取 中 ， 磁 盘 就 从 其 高 速 绥 
存 中 返回 所 需 数据 。 因 此 ， 文 件 系统 不 再 需要 担心 这 些 令 人 难以 置信 
HS 





FFS 还 增加 了 另 一 些 可 用 性 改进 。FFS 是 允许 长 文件 名 的 第 一 个 文件 系 
统 之 一 ， 因 此 在 文件 系统 中 实现 了 更 具 表 现 力 的 名 称 ， 而 不 是 传统 的 
固定 大 小 方法 〈 例 如 ，8 个 字符 ) 。 此 外 ， 引 入 了 一 种 称 为 符号 链接 的 
新 概念 。 正 如 第 40 章 所 讨论 的 那样 ， 便 链接 的 局 限 性 在 于 它们 都 不 能 
指向 目录 因为 害怕 引入 文件 系统 层次 结构 中 的 循环 ) ， 并 且 它 们 只 
能 指向 同一 卷 内 的 文件 〈 即 inode 号 必须 仍然 有 意义 )。 符 号 链接 允许 
用 户 为 系统 上 的 任何 其 他 文件 或 目录 创建 “别名 ”， 因 此 更 加 灵活 。 
FFS 还 引入 了 一 个 原子 rename JW 操作 ， 用 于 重 命名 文件 。 除 了 基本 技术 
之 外 ， 可 用 性 的 改进 也 可 能 让 FFS 拥 有 更 强大 的 用 户 群 。 





提示 : 让 系统 可 用 


FFS 最 基本 的 经 验 可 能 在 于 ， 它 不 仅 引 入 了 磁盘 意识 布局 〈 这 
是 个 好 主意 ) ， 还 添加 了 许多 功能 ， 这 些 功能 让 系统 的 可 用 
性 更 好 。 长 文件 名 、 符 号 链接 和 原子 化 的 重 命名 操作 都 改善 
了 系统 的 可 用 性 。 虽 然 很 难 写 一 篇 研究 论文 〈 想 象 一 下 ， 试 
着 读 一 篇 14 页 的 论文 ， 名 为 《符号 链接 : 硬 链 接 长 期 失散 的 
表 兄 》) ， 但 这 些小 功能 让 FFS 更 可 用 ， 从 而 可 能 增加 了 人 们 
采用 它 的 机 会 。 让 系统 可 用 通常 与 深层 技术 创新 一 样 重要 ， 
或 者 更 重要 。 








41.8 小 结 


FFS 的 引入 是 文件 系统 历史 中 的 一 个 分 水 岭 ， 因 为 它 清楚 地 表明 文件 管 
理 问题 是 操作 系统 中 最 有 趣 的 问题 之 一 ， 并 展示 了 如 何 开 始 处 理 最 重 
要 的 设备 : 硬盘。 从 那 时 起 ， 人 们 开发 了 数 百 个 新 的 文件 系统 ， 但 是 
现在 仍 有 许多 文件 系统 从 FFS 中 获得 提示 “例如 ，Linux ext2 和 ext3 是 
明显 的 知识 传承 )。 当 然 ， 所 有 现代 系统 都 要 感谢 FFS 的 主要 经 验 : 将 
磁盘 当 作 磁盘 。 


[MJLF84] “A Fast File System for UNIX” 


Marshall Kk. Mckusick, William N. Joy, Sam J. Leffler, Robert 
S. Fabry ACM Transactions on Computing Systems. 


August, 1984. Volume 2， Number 3. 

pages 181-197. 

McKusick 因 其 对 文件 系统 的 贡献 而 荣获 IEEE 的 Reynold B. Johnson 
奖 ， 其 中 大 部 分 是 基于 他 的 FFS 工 作 。 在 他 的 获奖 演讲 中 ， 他 讲 到 了 最 


初 的 FFS 软 件 : 只 有 1200 行 代码 ! 现代 版 本 稍微 复杂 一 些 ， 例 如 ，BSD 
FFS 后 继 版 本 现在 大 约 有 5 万 行 代码 。 








[P98] “Hardware Technology Trends and Database 
Opportunities” David A. Patterson 


Keynote Lecture at the ACM SIGMOD Conference (SIGMOD ”98) 
June, 1998 


磁盘 技术 趋势 及 其 随时 间 变 化 的 简单 概述 。 

[K94]“The Design of the SEER Predictive Caching System” 
G. H. kuenning 

MOBICOMM ” 94, Santa Cruz, California, December 1994 


据 Kuenning 说 ， 这 是 SEER 项 目的 较 全 面 的 概述 ， 这 导致 人 们 收集 这 些 
跟踪 记录 〈 和 其 他 一 些 事 ) 。 


第 42 章 ” 朋 溃 一 致 性 FSCK 和 日 志 


至 此 我 们 看 到 ， 文 件 系统 管理 一 组 数据 结构 以 实现 预期 的 抽象 : 文 
件 、 目 录 ， 以 及 所 有 其 他 元 数据 ， 它 们 支持 我 们 期 望 从 文件 系统 获得 
的 基本 抽象 。 与 大 多 数 数 据 结构 不 同 〈“ 例 如 ， 正 在 运行 的 程序 在 内 存 
中 的 数据 结构 ) ， 文 件 系统 数据 结构 必须 持久 《〈persist) ， 即 它们 必 
存储 在 断 电 也 能 保留 数据 的 设备 上 《例如 硬盘 或 基于 内 
子 的 SS9D) 。 


文件 系统 面临 的 一 个 主要 挑战 在 于 ， 如 何在 出 现 断 电 (power loss ) 
或 系统 骨 沉 (system crash) 的 情况 下 ， 更 新 持久 数据 结构 。 具 体 来 
说 ， 如 果 在 更 新 人 磁盘 结构 的 过 程 中 ， 有 人 绊 到 电源 线 并 且 机 器 断 电 ， 
会 发 生 什么 ?或 者 操作 系统 遇 到 错误 并 有 骨 江 ?由 于 断 电 和 骨 尝 ， 更 新 
持久 性 数据 结构 可 能 非常 赫 手 ， 并 导致 了 文件 系统 实现 中 一 个 有 趣 的 


新 问题 ， 称 为 朋 误 一 致 性 问题 (crash-consistency problem) 。 


这 个 问题 很 容易 理解 。 想 象 一 下 ， 为 了 完成 特定 操作 ， 你 必须 更 新 两 
个 磁盘 上 的 结构 A 和 B。 由 于 磁盘 一 次 只 为 一 个 请 求 提供 服务 ， 因 此 其 
中 一 个 请 求 将 首先 到 达 磁 盘 (A 或 B，。 如 果 在 一 次 写 入 完成 后 系统 月 
沉 或 断 电 ， 则 磁盘 上 的 结构 将 处 于 不 一 至 (inconsistent) 的 状态 。 
因此 ， 我 们 遇 到 了 所 有 文件 系统 需要 解决 的 问题 : 




















关键 问题 ， 考虑 到 裔 省， 如 何 更 新 磁盘 


系统 可 能 在 任何 两 次 写 入 之 间 毅 省 或 新 电 ， 因 此 磁盘 上 状态 
可 能 仅 部 分 地 更 新 。 骨 温 后 ， 系 统 启 动 并 希望 再 次 挂 载 文件 
系统 (以 便 访问 文件 等 ) 。 鉴 于 崩溃 可 能 发 生 在 任意 时 间 
点 ， 如 何 确 保 文件 系统 将 磁盘 上 的 映像 保持 在 合理 的 状态 ? 





在 本 半 中 ， 我 们 将 更 详细 地 探讨 这 个 问题 ， 看 看 文件 系统 克服 它 的 一 
些 方 法 。 我 们 将 首先 检查 较 老 的 文件 系统 采用 的 方法 ， 即 fsck， 文 件 








系统 检查 程序 (file system checker) 。 然 后 ， 我 们 将 注意 力 转 辐 另 
一 种 方法 ， 称 为 日 志 记 录 (journaling， 也 称 为 预 写 日 志 ，write- 
ahead logging) ， 这 种 技术 为 每 次 写 入 增加 一 点 开销 ， 但 可 以 更 快 地 
从 骨 溃 或 断 电 中 恢复 。 我 们 将 讨论 日 志 的 基本 机 制 ， 包 括 Linux ext3 
[T98，PAA05] (一 个 相对 现代 的 日 志文 件 系统 ) 实现 的 几 种 个 同 的 日 


以 





42. 1 一 个 详细 的 例子 





为 了 开始 对 日 志 的 调查 ， 先 看 一 个 例子 。 我 们 需要 一 种 工作 负载 
(workload) ， 它 以 茶 种 方式 更 新 磁盘 结构 。 这 里 假设 工作 负载 很 简 
单 : 将 单个 数据 块 附加 到 原 有 文件 。 通 过 打开 文件 ， 调 用 lseek 0 将 文 
件 偏 移 量 移动 到 文件 末尾 ， 然 后 在 关闭 文件 之 前 ， 向 文件 发 出 单个 4kB 
写 入 来 完成 追加 。 


我 们 还 假定 磁盘 上 使 用 标准 的 简单 文件 系统 结构 ， 类 似 于 之 前 看 到 的 
文件 系统 。 这 个 小 例子 包括 一 个 inode 位 图 (inode bitmap， 只 有 8 
位 ， 每 个 inode 一 个 ) ， 一 个 数据 位 图 (data bitnap， 也 是 8 位 ， 每 个 
数据 块 一 个 ) ，inode 〈 总 共 8 个 ， 编 号 为 0 到 7， 分 布 在 4 个 块 上 ) ， 以 
及 数据 块 〈 总 共 8 个 ， 编 号 为 0 一 7) 。 以 下 是 该 文件 系统 的 示意 图 : 








ln0de data block 





查看 图 中 的 结构 ， 可 以 看 到 分 配 了 一 个 inode 〈inode 号 为 2) ， 它 在 
inode 位 图 中 标记 ， 单 个 分 配 的 数据 块 〈 数 据 块 4) 也 在 数据 中 标记 位 
图 。inode 表 示 为 I Lvlj ， 因 为 它 是 此 inode 的 第 一 个 版 本 。 它 将 很 快 
更 新 〈 由 于 上 述 工 作 负 载 ) 。 


再 来 看 看 这 个 简化 的 inode。 在 I[v1j] 中 ， 我 们 看 到 : 


owner : remzi 


permissions : read-write 
size ; 

pointer : 4 

pointer iE 
pointer UL. 
pointer : null 


在 这 个 简化 的 inode 中 ， 文 件 的 大 小 为 1〈 它 有 一 个 块 位 于 其 中 ) ， 第 
一 个 直接 指针 指向 块 4( 文 件 的 第 一 个 数据 块 ，Da) ， 并 且 所 有 其 他 3 
个 直接 指针 都 被 设置 为 ull1 (表示 它们 未 被 使 用 ) 。 当 然 ， 真正 的 
inode 有 更 多 的 字段 。 更 多 相关 信息 ， 请 参阅 前 面 的 间 市 。 


同文 件 追 加 内 容 时 ， 要 向 它 添加 一 个 新 数据 块 ， 因 此 必须 更 新 3 个 磁盘 

上 的 结构 : inode (必须 指 问 新 块 ， 并 且 由 于 追加 而 具有 更 大 的 大 

0 0 ( 称 之 为 B[v2] ) 表示 新 数据 块 
被 分 配 。 


因此 ， 在 系统 的 内 存 中 ， 有 3 个 块 必 须 写 入 磁盘 。 更 新 的 inode (inode 
版 本 2， 或 简称 为 I [Lv2] ) 现在 看 起 来 像 这 样 : 


owner : remzi 














permissions : read-write 
size : 

pointer 4 

pointer 5 

pointer null 
pointer null 





更 新 的 数据 位 图 (BLv2]) 现在 看 起 来 像 这 样 : 00001100。 最 后 ， 有 数 
据 块 (Db) ， 它 只 是 用 户 放 入 文件 的 内 容 。 


我 们 希望 文件 系统 的 最 终 磁 盘 映像 如 下 所 示 : 


Inode data block 





要 实现 这 种 转变 ， 文 件 系统 必须 对 磁盘 执行 3 次 单独 写 入 ， 分 别针 对 
inode (CILv2]) ， 位 图 (B[v2] ) 和 数据 块 (Db) 。 请 注意 ， 当 用 户 发 
出 write() 系统 调用 时 ， 这 些 写 操作 通常 不 会 立即 发 生 。 脏 的 inode、 
位 图 和 新 数据 先 在 内 存 (页面 缓 存 ，page cache， 或 缕 冲 区 绥 存 ， 
buffer cache) 中 存在 一 段 时 间 。 然 后 ， 当 文件 系统 最 终 决 定 将 它们 
写 入 磁盘 时 〈 比 如 说 5s 或 30Ss) ， 文 件 系 统 将 同人 磁盘 发 出 必要 的 写 入 请 
求 。 遗 憾 的 是 ， 可 能 会 发 生 骨 沉 ， 从 而 干扰 磁盘 的 这 些 更 新 。 特 别 
是 ， 如 果 这 些 写 入 中 的 一 个 或 两 个 完成 后 发 生 朋 尝 ， 而 不 是 全 部 3 
个 ， 则 文件 系统 可 能 处 于 有 趣 的 状态 。 


裔 冲 场 景 


为 了 更 好 地 理解 这 个 问题 ， 让 我 们 看 一 些 裔 省 情景 示例 。 想 象 一 下 ， 
只 有 一 次 写 入 成 功 。 因 此 有 以 下 3 种 可 能 的 结果 。 


。 只 将 数据 块 (Db) 写 入 磁盘 。 在 这 种 情况 下 ， 数 据 在 磁盘 上 ， 但 
是 没有 指 癌 它 的 inode， 也 没有 表示 块 已 分 配 的 位 图 。 因 此 ， 束 好 
像 写 入 从 未 发 生 过 一 样 。 从 文件 系统 骨 演 一致 性 的 角度 来 看 ， 这 
种 情况 根本 不 是 问题 ( 赴 。 

。 只 有 更 新 的 inode (ILv2] ) 写 入 了 磁盘 。 在 这 种 情况 下 ，inode 
指向 磁盘 地 址 (5) ， 其 中 pb 即将 写 入 ， 但 Db 尚 未 写 入 。 因 此 ， 如 
人 我 们 将 从 磁盘 读 取 垃圾 数据 (磁盘 地 址 5 的 旧 

容 六 5 


此 外 ， 遇 到 了 一 个 新 间 题 ， 我 们 将 它 称 为 文件 系统 不 一 致 (file- 
system inconsistency) 。 倒 盘 上 的 位 图 告诉 我 们 数据 块 5 尚未 分 配 ， 
但 是 inode 说 它 已 经 分 配 了 。 文 件 系统 数据 结构 中 的 这 种 不 同意 见 ， 是 
文件 系统 的 数据 结构 不 一 致 。 要 使 用 文件 系统 ， 我 们 必须 以 某 种 方式 


解决 这 个 问题 。 




















。 只 有 更 新 后 的 位 图 (B [v2] ) 写 入 了 磁盘 。 在 这 种 情况 下 ， 位 图 
指示 已 分 配 块 5， 但 没有 指向 它 的 inode。 因 此 文件 系统 再 次 不 一 





致 。 如 果 不 解雇 ， 这 种 写 入 将 导致 空间 泄露 (space leak) ， 
为 文件 系统 永远 不 会 使 用 块 5。 
在 这 个 向 磁盘 写 入 3 次 的 答 试 中 ， 还 有 3 种 朋 溃 场景 。 在 这 些 情 况 下 ， 
两 次 写 入 成 功 ， 最 后 一 次 失败 。 





。inode (I[v2] ) 和 位 图 (B[v2] ) 写 入 了 磁盘 ， 但 没有 写 入 数据 
(Db) 。 在 这 种 情况 下 ， 文 件 系 统 元 数据 是 完全 一 致 的 : inode 有 
一 个 指向 块 5 的 指针 ， 位 图 指示 5 正在 使 用 ， 因 此 从 文件 系统 的 元 
J 切 看 起 来 都 很 正常 。 但 是 有 一 个 问题 : 5 中 又 
是 垃圾 。 

写 入 了 inode (ILv2] ) 和 数据 块 (Db) ， 但 没有 写 入 位 图 
(BLv2]) 。 在 这 种 情况 下 ，inode 指 向 了 磁盘 上 的 正确 数据 ， 但 
同样 在 inode 和 位 图 (Bl1) 的 旧版 本 之 间 存 在 不 一 致 。 因 此 ， 我 们 
在 使 用 文件 系统 之 前 ， 又 需要 解决 问题 。 

写 入 了 位 图 (B[v2] ) 和 数据 块 (Db) ， 但 没有 写 入 
inode (CI[Lv2]) 。 在 这 种 情况 下 ，inode 和 数据 位 图 之 间 再 次 存在 
不 一 致 。 但 是 ， 即 使 号 入 块 并 且 位 图 指示 其 使 用 ， 我 们 也 不 知道 
它 属于 哪个 文件 ， 因 为 没有 inode 指 问 该 块 。 














朋 江 一 致 性 问题 


希望 从 这 些 骨 尝 场 景 中 ， 你 可 以 看 到 由 于 册 尝 而 导致 磁盘 文件 系统 映 
像 可 能 出 现 的 许多 问题 ， 在 文件 系统 数据 结构 中 可 能 存在 不 一 致 性 。 
可 能 有 空间 泄露 ， 可 能 将 垃圾 数据 返回 给 用 户 ， 等 等 。 理 想 的 做 法 是 
将 文件 系统 从 一 个 一 致 状态 (在 文件 被 追加 之 前 ) ， 原 子 地 
(atomically) 移动 到 另 一 个 状态 (在 inode、 位 图 和 新 数据 块 被 写 入 
破 盘 之 后 ) 。 遗 憾 的 是 ， 做 到 这 一 点 不 容易 ， 因 为 磁盘 一 次 只 提交 一 
次 写 入 ， 而 这 些 更 新 之 间 可 能 会 发 生 骨 误 或 断 电 。 我 们 将 这 个 一 般 问 
题 称 为 骨 溃 一 致 性 问题 (crash-consistency problem， 也 可 以 称 为 一 
致 性 更 新 问题 ，consistent-update problem) 。 


42.2 解决 方案 1: 文件 系统 检查 程序 


早期 的 文件 系统 采用 了 一 种 简单 的 方法 来 处 理 崩 演 一 臻 性。 基本 上 ， 
它们 决定 让 不 一 致 的 事情 发 生 ， 然 后 再 修复 它们 (重启 时 ) 。 这 种 偷 
懒 方法 的 典型 例子 可 以 在 一 个 工具 中 找到 :; fsckL21。fsck 是 一 个 UNIX 
工具 ， 用 于 查找 这 些 不 一 致 并 修复 它们 [M86] 。 在 不 同 的 系统 上 ， 存 在 
检查 和 修复 磁盘 分 区 的 类 似 工 具 。 请 注意 ， 这 种 方法 无 法 解决 所 有 问 
题 。 例 如 ， 考 虑 上 面 的 情况 ， 文 件 系统 看 起 来 是 一 致 的 ， 但 是 inode 指 
向 垃圾 数据 。 唯 一 真正 的 目标 ， 是 确保 文件 系统 元 数据 内 部 一 致 。 
工具 fsck 在 许多 阶段 运行 ， 如 MecKusick 和 Kowalski 的 论文 [MK96] 所 
述 。 它 在 文件 系统 挂 载 并 可 用 之 前 运行 (fsck 假 定 在 运行 时 没有 其 他 
文件 系统 活动 正在 进行 ) 。 一 旦 完成 ， 磁 盘 上 的 文件 系统 应 该 是 一 致 
的 ， 因 此 可 以 让 用 户 访 问 。 


以 下 是 fsck 的 基本 总 结 。 








。 超 级 块 : fsck 首 先 检 查 超 级 块 是 否 合 理 ， 主 要 是 进行 健全 性 检 
查 ， 例 如 确保 文件 系统 大 小 大 于 分 配 的 块 数 。 通 常 ， 这 些 健全 性 
检查 的 目的 是 找到 一 个 可 疑 的 (冲突 的 ) 超级 块 。 在 这 种 情况 
下 ， 系 统 〈 或 管理 员 ) 可 以 决定 使 用 超级 块 的 备用 副本 。 

。 空闲 块 : 接 下 来 ，fsck 扫 描 inode、 间 接 块 、 双 重 间 接 块 等 ， 以 了 

解 当 前 在 文件 系统 中 分 配 的 块 。 它 利用 这 些 知 识 生 成 正确 版 本 的 

分 配 位 图 。 因 此 ， 如 果 位 图 和 inode 之 间 存 在 任何 不 一 致 ， 则 通过 

信任 inode 内 的 信息 来 解决 它 。 对 所 有 inode 执 行 相 同类 型 的 检 

查 ， 确 保 所 有 看 起 来 像 在 用 的 inode， 都 在 inode 位 图 中 有 标记 。 

inode 状 态 : 检查 每 个 inode 是 否 存在 损坏 或 其 他 问题 。 例 如 ， 

fsck 确 保 每 个 分 配 的 inode 具 有 有 效 的 类 型 字段 〈 即 凋 规 文件 、 目 

录 、 符 号 链接 等 ) 。 如 果 inode 字 段 存 在 问题 ， 不 易 修 复 ， 则 

inode 被 认为 是 可 疑 的 ， 并 被 fsck 清 除 ，inode 位 图 相应 地 更 新 。 

inode 链 接 : fsck 还 会 验证 每 个 已 分 配 的 inode 的 链接 数 。 你 可 能 

还 记得 ， 链 接 计 数 表 示 包 含 此 特定 文件 的 引用 《“ 即 链接 ) 的 不 同 

目录 的 数量 。 为 了 验证 链接 计数 ，fsck 从 根 目 录 开 始 扫 描 整 个 目 

录 树 ， 并 为 文件 系统 中 的 每 个 文件 和 目录 构建 自己 的 链接 计数 。 

如 果 新 计算 的 计数 与 inode 中 找到 的 计数 不 匹配 ， 则 必须 采取 纠正 
音 施 ， 通 常 是 修复 inode 中 的 计数 。 如 果 发 现 已 分 配 的 inode 但 没 

有 目录 引用 它 ， 则 会 将 其 移动 到 lost + found 目 录 。 

重复 : fsck 还 检查 重复 指针 ， 即 两 个 不 同 的 inode 引 用 同一 个 块 的 

情况 。 如 果 一 个 inode 明 显 不 好 ， 可 能 会 被 清除 。 或 者 ， 可 以 复制 














指向 的 块 ， 从 而 根据 需要 为 每 个 ijnode 提 供 其 自己 的 副本 。 

。 坏 块 : 在 扫描 所 有 指针 列表 时 ， 还 会 检查 坏 块 指 针 。 如 果 指 针 显 
然 指 回 超 出 其 有 效 范 围 的 茶 个 指针 ， 则 该 指针 被 认为 是 “ 坏 
的 ”， 例 如 ， 它 的 地 址 指向 大 于 分 区 大 小 的 块 。 在 这 种 情况 下 ， 
fsck 不 能 做 任何 太 陪 明 的 事情 。 它 只 是 从 inode 或 间接 块 中 删除 
《清除 ) 该 指针 。 

目录 检查 : fsck 不 了 解 用 户 文件 的 内 容 。 但 是 ， 目 录 包 含 由 文件 
系统 本 和 喘 创 建 的 特定 格式 的 信息 。 因 此 ，fsck 对 每 个 目录 的 内 容 
执行 额外 的 完整 性 检查 ， 确 保 “. ”和 “.. ”是 前 面 的 条 目 ， 目 录 
条 目 中 引用 的 每 个 inode 都 已 分 配 ， 并 确保 整个 层次 结构 中 没有 目 
录 的 引用 超过 一 次 。 


如 你 所 见 ， 构 建 有 效 工 作 的 fsck 需 要 复杂 的 文件 系统 知识 。 确 保 这 样 
的 代码 在 所 有 情况 下 都 能 正常 工作 可 能 具有 挑战 性 [G6+08] 。 然 而 ， 
fsck〈 和 类 似 的 方法 ) 有 一 个 更 大 的 、 也 许 更 根本 的 问题 ， 它 们 太 慢 
了 。 对 于 非常 大 的 磁盘 卷 ， 扫 描 整 个 磁盘 ， 以 查找 所 有 已 分 配 的 块 并 
读 取 整个 目录 树 ， 可 能 需要 几 分 钟 或 几 小 时 。 随 着 磁盘 容量 的 增长 和 
0 
M+13] ) 。 


在 更 高 的 层面 上 ，fsck 的 基本 前 提 似 乎 有 点 不 合理 。 考 虑 上 面 的 示 
例 ， 其 中 只 有 3 个 块 写 入 磁盘 。 扫 描 整 个 磁盘 ， 仅 修复 更 新 3 个 块 期 
间 出 现 的 问题 ， 这 是 非常 昂贵 的 。 这 种 情况 类 似 于 将 你 的 钥匙 放 在 卧 
室 的 地 板 上 ， 然 后 从 地 下 室 开 始 ， 搜 遍 每 个 房间 ， 执 行 “ 搜 索 整 个 房 
子 找 钥 是 ”的 恢复 算法 。 它 有 效 ， 但 很 浪费 。 因 此 ， 随 着 磁盘 (和 
RAID) 的 增长 ， 研 究 人 员 和 从 业者 开始 寻找 其 他 解决 方案 。 














42.3 解决 方案 2: 日 志 (或 预 写 日 志 ) 


对 于 一 致 更 新 问题 ， 最 流行 的 解决 方案 可 能 是 从 数据 库 管 理 系统 的 世 
界 中 借鉴 的 一 个 想法 。 这 种 名 为 预 写 日 志 (write-ahead logging) 的 
想法 ， 是 为 了 解决 这 类 问题 而 发 明 的 。 在 文件 系统 中 ， 出 于 历史 原 
因 ， 我 们 通常 将 预 写 日 志 称 为 日 志 (journaling) 。 第 一 个 实现 它 的 
文件 系统 是 Cedar [LH87]， 但 许多 现代 文件 系统 都 使 用 这 个 想法 ， 包 括 


Linux ext3 和 ext4、reiserfs、 IBM 的 JFES、 SGI 的 XFS 和 Windows 
NTFS。 


基本 思路 如 下 。 更 新 磁盘 时 ， 在 窗 写 结构 之 前 ， 首 先 写 下 一 点 小 注 记 
《在 磁盘 上 的 其 他 地 方 ， 在 一 个 众所周知 的 位 置 ) ， 描 述 你 将 要 做 的 
事情 。 写 下 这 个 注 记 就 是 “ 预 写 ”部 分 ， 我 们 把 它 写 入 一 个 结构 ， 并 
组 织 成 “日 志 ”。 因 此 ， 就 有 了 预 写 日 志 。 


通过 将 注释 写 入 磁盘 ， 可 以 保证 在 更 新 (和 窗 写 ) 正在 更 新 的 结构 期 间 
发 生计 省 时 ， 能 够 返回 并 查看 你 所 做 的 注 记 ， 然 后 重 试 。 因 此 ， 你 会 
在 般 训 后 准确 知道 要 修复 的 内 容 《〈 以 及 如 何 修复 它 ) ， 而 不 必 扫 描 整 
个 磁盘 。 因 此 ， 通 过 设计 ， 日 志 功 能 在 更 新 期 间 增 加 了 一 些 工 作 量 ， 
从 而 大 大 减少 了 恢复 期 间 所 需 的 工作 量 。 


我 们 现在 将 描述 Linux ext3 《〈 一 种 流行 的 日 志文 件 系统 ) 如 何 将 日 志 
记录 到 文件 系统 中 。 大 多 数 人 磁盘 上 的 结构 与 Linux ext2 相 同 ， 例 如 ， 
磁盘 被 分 成 块 组 ， 每 个 块 组 都 有 一 个 inode 和 数据 位 图 以 及 inode 和 数 
据 块 。 新 的 关键 结构 是 日 志 本 身 ， 它 占用 分 区 内 或 其 他 设备 上 的 少量 
空间 。 因 此 ，ext2 文 件 系统 〈 没 有 日 志 ) 看 起 来 像 这 样 : 
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假设 日 志 放 在 同一 个 文件 系统 映像 中 (虽然 有 时 将 它 放 在 单独 的 设备 
上 ， 或 作为 文件 系统 中 的 文件 ) ， 带 有 日 志 的 ext3 文 件 系 统 如 下 所 
外 : 


真正 的 区 别 只 是 日 志 的 存在 ， 当 然 ， 还 有 它 的 使 用 方式 。 














数据 日 志 


看 一 个 简单 的 例子 ， 来 理解 数据 日 志 (data journaling) 的 工作 原 
理 。 数 据 日 志 作 为 Linux ext3 文 件 系统 的 一 种 模式 提供 ， 本 讨论 的 大 
部 分 内 容 都 来 自 于 此 。 


假设 再 次 进行 标准 的 更 独 ， 我 们 再 次 布 望 将 inode (I[v2] ) 、 位 图 
(BLv2] ) 和 数据 块 〈《Db) 写 入 磁盘 。 在 将 它们 写 入 最 终 磁 盘 位 置 之 
前 ， 现 在 先 将 它们 写 入 日 志 。 这 惑 是 日 志 中 的 样子 : 
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你 可 以 看 到 ， 这 里 写 了 5 个 块 。 事 务 开始 〈TxB) 告诉 我 们 有 关 此 更 新 
的 信息 ， 包 括 对 文件 系统 即将 进行 的 更 新 的 相关 信息 《〈 例 如， 块 
ILv2]、B[v2] 和 Db 的 最 终 地 址 ) ， 以 及 某 种 事务 标识 符 (transaction 
identifier，TID) 。 中 间 的 3 个 块 只 包含 块 本 身 的 确切 内 容 ， 这 被 称 
为 物理 日 志 (physical logging) ， 因 为 我 们 将 更 新 的 确切 物理 内 容 
放 在 日 志 中 ( 另 一 种 想法 ， 逻 辑 日 志 (logical logging) ， 在 日 志 中 
放置 更 紧凑 的 更 新 逻辑 表示 ， 例 如 ， “这 次 更 新 希望 将 数据 块 pb 奶 加 
到 文件 X”， 这 有 点 复杂 ， 但 可 以 节省 日 志 中 的 空间 ， 并 可 能 提高 性 
能 ) 。 最 后 一 个 块 〈TxE) 是 该 事务 结束 的 标记 ， 也 会 包含 TID。 


一 旦 这 个 事务 安全 地 存在 于 磁盘 上 ， 我 们 融 可 以 履 写 文件 系统 中 的 旧 
结构 了 。 这 个 过 程 称 为 加 检查 点 〈checkpointing) 。 因 此 ， 为 了 对 文 
件 系 统 加 检查 点 (checkpoint， 即 让 它 与 日 志 中 即将 进行 的 更 新 一 
致 ; ， 我 们 将 IL[v2]、B[v2] 和 Dpb 写 入 其 磁盘 位 置 ， 如 上 上 所 示 。 如 果 这 
些 写 入 成 功 完成 ， 我 们 已 成 功 地 为 文件 系统 加 上 了 检查 点 ， 基 本 上 完 
成 了 。 因 此 ， 我 们 的 初始 操作 顺序 如 下 。 


1. 日 志 写 入 : 将 事务 (包括 事务 开始 块 所 有 即将 写 入 的 数据 和 元 数 
据 更 新 以 及 事务 结束 块 ) 写 入 日 志 ， 等 待 这 些 写 入 完成 。 
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在 我 们 的 例子 中 ， 先 将 TxB、I[Lv2]、BLv2]、Db 和 TxE 写 入 日 志 。 这 些 
写 入 完成 后 ， 我 们 将 加 检查 点 ， 将 ILv2]、BLv2] 和 Db 写 入 磁盘 上 的 最 
终 位 置 ， 完 成 更 新 。 


在 写 入 日 志 期 间 发 生 骨 训 时 ， 事 情 变 得 有 点 赤 手 。 在 这 里 ， 我 们 试图 
将 事务 中 的 这 些 块 〈 即 TxB、I[v2]、B[v2]、Db、TxE) 写 入 磁盘 。 一 
种 简单 的 方法 是 一 次 发 出 一 个 ， 等 待 每 个 完成 ， 然 后 发 出 下 一 个 。 但 
是 ， 这 很 慢 。 理 想 情 况 下 ， 我 们 希望 一 次 发 出 所 有 5 个 块 写 入 ， 因 为 
这 会 将 5 个 写 入 转换 为 单个 顺序 写 入 ， 因 此 更 快 。 然 而 ， 由 于 以 下 原 
因 ， 这 是 不 安全 的 : 给 定 如 此 大 的 写 入 ,磁盘 内 部 可 以 执行 调度 并 以 
任何 顺序 完成 大 批 写 入 的 小 块 。 因 此 ， 磁 盘 内 部 可 以 (1) 写 入 TxB、 
TI[v2]、B[v2] 和 TxE， 然 后 才 写 入 Db。 遗 憾 的 是 ， 如 果 磁 盘 在 〈1) 和 
(2) 之 间断 电 ， 那 么 磁盘 上 会 变 成 : 
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补充 : 强制 写 入 磁盘 


为 了 在 两 次 磁盘 写 入 之 间 强 制 执行 顺序 ， 现 代 文 件 系统 必须 
采取 一 些 额外 的 预防 措施 。 在 过 去 ， 强 制 在 两 个 号 入 A 和 B 之 
间 进 行 顺序 很 简单 : 只 需 同 磁盘 发 出 A 写 入 ， 等 待 磁盘 在 写 入 
完成 时 中 断 09$， 然 后 发 出 写 入 B。 


由 于 磁盘 中 写 入 缓存 的 使 用 增加 ， 事 情 变 得 有 点 复杂 了 。 启 
用 写 入 缓冲 后 (有 时 称 为 立即 报告 ， immediate 
reporting) ， 如 果 磁 盘 已 经 放 入 破 盘 的 内 存 绥 存 中 、 但 尚未 
到 达 磁 盘 ， 磁 盘 束 会 通知 操作 系统 写 入 完成 。 如 果 操 作 系 统 
随后 发 出 后 续 写 入 ， 则 无 法 保证 它 在 先前 写 入 之 后 到 达 磁 
盘 。 因 此 ， 不 再 保证 写 入 之 间 的 顺序 。 一 种 解决 方案 是 禁 
写 缓冲 。 然 而 ， 更 现代 的 系统 采取 额外 的 预防 措施 ， 发 出 明 
































确 的 写 入 屏障 (write barrier ) 。 这 样 的 屏障 ， 当 它 完 成 
时 ， 能 确保 在 屏障 之 前 发 出 的 所 有 写 入 ， 先 于 在 屏障 之 后 发 
出 的 所 有 写 入 到 达 磁 盘 。 


所 有 这 些 机 制 都 需要 对 磁盘 的 正确 操作 有 很 大 的 信任 。 遗 憾 
的 是 ， 最 近 的 研究 表明 ， 为 了 提供 “性 能 更 高 ”的 磁盘 ， 一 
些 磁盘 制造 商 显然 忽略 了 写 屏 障 请 求 ， 从 而 使 磁盘 看 起 来 运 
行 速度 更 快 ， 但 存在 操作 错误 的 风险 [C+13，R+11] 。 正 如 
Kahan 所 说 ， 快 速 几乎 总 是 打败 慢 速 ， 即 使 快速 是 错 的 。 











为 什么 这 是 个 问题 ? 好 吧 ， 事 务 看 起 来 像 一 个 有 效 的 事务 〈 它 有 一 个 
匹配 序列 号 的 开头 和 结尾 ) 。 此 外 ， 文 件 系 统 无 法 查看 第 四 个 块 并 知 
道 它 是 错误 的 。 毕 葛 ， 它 是 任意 的 用 户 数据 。 因 此 ， 如 果 系 统 现在 重 
新 启动 并 运行 恢复 ， 它 将 重 放 此 事务 ， 并 无 知 地 将 垃圾 块 “??” 的 内 
容 复 制 到 Db 应 该 存在 的 位 置 。 这 对 文件 中 的 任意 用 户 数据 不 利 。 如 果 
它 发 生 在 文件 系统 的 关键 部 分 上 ， 例 如 超级 块 ， 可 能 会 导致 文件 系统 
无 法 挂 装 ， 那 就 更 灶 了 。 











补充 : 优化 日 志 写 入 


你 可 能 已 经 注意 到 ， 写 入 日 志 的 效率 特别 低 。 也 就 是 说 ， 文 
件 系 统 首先 必须 写 出 事务 开始 块 和 事务 的 内 容 。 只 有 在 这 些 
写 入 完成 后 ， 文 件 系统 才能 将 事务 结束 块 发 送 到 磁盘 。 如 果 
你 考虑 磁盘 的 工作 方式 ， 性 能 影响 很 明显 : 通常 会 产生 额外 
的 旋转 《请 考虑 原因 ) 。 


我 们 以 前 的 一 个 研究 生 Vijayan Prabhakaran， 用 一 个 简单 的 
想法 解决 了 这 个 问题 [P+05] 。 将 事务 写 入 日 志 时 ， 在 开始 和 
结束 块 中 包含 日 志 内 容 的 校 验 和 。 这 样 做 可 以 使 文件 系统 立 
即 写 入 整个 事务 ， 而 不 会 产生 等 待 。 如 果 在 恢复 期 间 ， 文 件 
系统 发 现 计算 的 校 验 和 与 事务 中 存储 的 校 验 和 不 匹配 ， 则 可 
以 断定 在 写 入 事务 期 间 发 生 了 崩 尝 ， 从 而 丢弃 了 文件 系统 更 
新 。 因 此 ， 通 过 写 入 协议 和 恢复 系统 中 的 小 调整 ， 文 件 系统 
可 以 实现 更 快 的 通用 情况 性 能 。 最 重要 的 是 ， 系 统 更 可 靠 
了 ， 因 为 来 自 日 志 的 任何 读 取 现在 都 受到 校 验 和 的 保护 。 











这 个 简单 的 修复 很 吸引 人 ， 足 以 引起 Linux 文 件 系统 开发 人 员 
的 注意 。 他 们 后 来 将 它 合 并 到 下 一 代 Linux 文 件 系统 中 ， 称 为 
Linux ext4〔 你 猜 对 了 ! ) 。 它 现在 可 以 在 全 球 数 百 万 台 机 
器 上 运行 ， 包 括 Android 手 持平 台 。 因 此 ， 每 次 在 许多 基于 
Linux 的 系统 上 写 入 磁盘 时 ， 威 斯 康 星 大 学 开发 的 一 些 代 码 都 
会 使 你 的 系统 更 快 、 更 可 靠 。 











为 避免 该 问题 ， 文 件 系统 分 两 步 发 出 事务 写 入 。 首 先 ， 它 将 除 TxE 块 之 
外 的 所 有 块 写 入 日 志 ， 同 时 发 出 这 些 写 入 。 当 这 些 写 入 完成 时 ， 日 志 
将 看 起 来 像 这 样 〈 假 设 又 是 文件 追加 的 工作 负载 ) : 
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此 过 程 的 一 个 重要 方面 是 磁盘 提供 的 原子 性 保证 。 事 实证 明 ， 磁 盘 保 
证 任何 512 字 节 写 入 都 会 发 生 或 不 发 生 〈 永 远 不 会 半 写 ) 。 因 此 ， 为 了 
确保 TxE 的 写 入 是 原子 的 ， 应 该 使 它 成 为 一 个 512 字 节 的 块 。 因 此 ， 我 
们 当前 更 新 文件 系统 的 协议 如 下 ，3 个 阶段 中 的 每 一 个 都 标 上 了 名 称 。 


1. 日 志 写 入 : 将 事务 的 内 容 (包括 TxB、 元 数据 和 数据 ) 写 入 日 志 ， 
等 待 这 些 写 入 完成 。 


2. 日 志 提 交 : 将 事务 提交 块 〈 包 括 TxE) 写 入 日 志 ， 等 待 写 完 成 ， 事 
务 被 认为 已 提交 (committed) 。 


3， 加 检查 点 ， 将 更 新 内 容 〈 元 数据 和 数据 ) 写 入 其 最 终 的 磁盘 位 置 。 
恢复 


现在 来 了 解 文件 系统 如 何 利 用 日 志 内 容 从 月 尝 中 恢复 (recover) 。 在 
这 个 更 新 序列 期 间 ， 任 何 时 候 都 可 能 发 生 骨 尝 。 如 果 崩 江 发 生 在 事务 
被 安全 地 写 入 日 志 之 前 〈 在 上 面 的 步骤 2 完成 之 前 ) ， 那 么 我 们 的 工作 
很 简单 : 简单 地 跳 过 待 执行 的 更 新 。 如 果 在 事务 已 提交 到 日 志 之 后 但 
在 加 检查 点 完成 之 前 发 生 央 江 ， 则 文件 系统 可 以 按 如 下 方式 恢复 
(recover) 更 新 。 系 统 引 导 时 ， 文 件 系 统 恢 复 过 程 将 扫描 日 志 ， 并 查 
找 已 提交 到 磁盘 的 事务 。 然 后 ， 这 些 事务 被 重 放 (replayed， 按 顺 
序 ) ， 文 件 系 统 再 次 尝试 将 事务 中 的 块 写 入 它们 最 终 的 磁盘 位 置 。 这 
种 形式 的 日 志 是 最 简单 的 形式 之 一 ， 称 为 重 做 日 志 (redo 
logging) 。 通 过 在 日 志 中 恢复 已 提交 的 事务 ， 文 件 系 统 确 保 人 磁盘 上 的 
0 














请 注意 ， 即 使 在 某 些 更 新 写 入 块 的 最 终 位 置 之 后 ， 在 加 检查 点 期 间 的 
任何 时 刻 发 生 衣 溃 ， 都 没 问题 。 在 最 坏 的 情况 下 ， 其 中 一 些 更 新 只 是 
在 恢复 期 间 再 次 执行 。 因 为 恢复 是 一 种 军 见 的 操作 〈 仅 在 系统 意外 前 
溃 之 后 发 生 ) ， 所 以 几 次 完 余 写 入 无 须 担 心 [31。 








批 处 理 日 志 更 新 


你 可 能 已 经 注意 到 ， 基 本 协议 可 能 会 增加 大 量 额 外 的 磁盘 流量 。 例 
如 ， 假 设 我 们 在 同一 目录 中 连续 创建 两 个 文件 ， 称 为 filel1 和 file2。 
要 创建 一 个 文件 ， 必 须 更 新 许多 磁盘 上 的 结构 ， 至 少 包括 : inode 位 图 
(分 配 新 的 inode) ， 新 创建 的 文件 inode， 包 含 新 文件 目录 条 目的 父 
目录 的 数据 块 ， 以 及 父 目 录 的 inode (现在 有 一 个 新 的 修改 时 间 ) 。 通 
过 日 志 ， 我 们 将 所 有 这 些 信息 逻辑 地 提交 给 我 们 的 两 个 文件 创建 的 日 
志 。 因 为 文件 在 同一 个 目录 中 ， 我 们 假设 在 同一 个 inode 块 中 都 有 


inode， 这 意味 着 如 果 不 小 心 ， 我 们 最 终 会 一 过 叉 一 所 地 写 入 这 些 相同 
的 块 。 


为 了 解决 这 个 问题 ， 一 些 文件 系统 不 会 一 次 一 个 地 向 磁盘 提交 每 个 更 
新 《例如 ，Linux ext3) 。 与 此 不 同 ， 可 以 将 所 有 更 新 缓冲 到 全 局 事 
务 中 。 在 上 面 的 示例 中 ， 当 创建 两 个 文件 时 ， 文 件 系统 只 将 内 存 中 的 
inode 位 图 、 文 件 的 inode、 目 录 数 据 和 目录 inode 标 记 为 脏 ， 并 将 它们 
添加 到 块 列 表 中 ， 形 成 当前 的 事务 。 当 最 后 应 该 将 这 些 块 写 入 磁盘 时 
〈 例 如， 在 超时 5s 之 后 ) ， 会 提交 包含 上 述 所 有 更 新 的 单个 全 局 事 
务 。 因 此 ， 通 过 缓冲 更 新 ， 文 件 系统 在 许多 情况 下 可 以 避免 对 磁盘 的 
过 多 的 写 入 流量 。 








使 日 志 有 限 





因此 ， 我 们 已 经 了 解 了 更 新 文件 系统 磁盘 结构 的 基本 协议 。 文 件 系 统 
缓冲 内 存 中 的 更 新 一 段 时 间 。 最 后 写 入 磁盘 时 ， 文 件 系统 首先 仔细 地 
将 事务 的 详细 信息 写 入 日 志 《 即 预 写 日 志 ) 。 事 务 完成 后 ， 文 件 系统 
会 加 检查 点 ， 将 这 些 块 写 入 磁盘 上 的 了 最 终 位 置 。 


但 是 ， 日 志 的 大 小 有 限 。 如 果 不 断 癌 它 添加 事务 〈 如 下 所 示 ) ， 它 将 
很 快 填 满 。 你 觉得 会 发 生 什么 ? 
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日 志 满 时 会 出 现 两 个 问题 。 第 一 个 问题 比较 简单 ， 但 不 太 重 要 : 日 志 

越 大 ， 恢 复 时 间 越 长 ， 因 为 恢复 过 程 必须 重 放 日 志 中 的 所 有 事务 《〈 按 

顺序 ) 才能 恢复 。 第 二 个 问题 更 重要 : 当日 志 已 满 (或 接近 满 ) 时 ， 

人 
be 





为 了 解决 这 些 问 题 ， 日 志文 件 系 统 将 日 志 视 为 循环 数据 结构 ， 一 裔 又 
一 遍地 重复 使 用 。 这 就 是 为 什么 日 志 有 时 被 称 为 循环 日 志 (circular 
log) 。 为 此 ， 文 件 系 统 必须 在 加 检查 点 之 后 的 某 个 时 间 执 行 操作 。 具 
体 来 说 ， 一 旦 事务 被 加 检查 点 ， 文 件 系 统 应 释放 它 在 日 志 中 占用 的 空 

间 ， 人 允许 重用 日 志 空间 。 有 很 多 方法 可 以 达到 这 个 目的 。 例 如 ， 你 只 
需 在 日 志 超 级 块 ( journal superblock) 中 标记 日 志 中 最 旧 和 最 新 的 
事务 。 所 有 其 他 空间 都 是 空闲 的 。 以 下 是 这 种 机 制 的 图 形 描述 : 
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在 日 志 超 级 块 中 (不 要 与 主 文 件 系统 的 超级 块 混淆 ) ， 日 志 系 统 记录 
| 
间 ， 并 允许 以 循环 的 方式 重新 使 用 日 志 。 因 此 ， 我 们 在 基本 协议 中 添 
加 了 为 一 个 步 强 。 


1. 日 志 写 入 : 将 事务 的 内 容 (包括 Tx*B 和 更 新 内 容 ) 写 入 日 志 ， 等 待 
这 些 写 入 完成 。 

2. 日 志 提交 : 将 事务 提交 块 (包括 TxE) 写 入 日 志 ， 等 待 写 完成 ， 事 
务 被 认为 已 提交 (committed) 。 

3. 加 检查 点 : 将 更 新 内 容 写 入 其 最 终 的 磁盘 位 置 。 

4. 释放 : 一 段 时 间 后 ， 通 过 更 新 日 志 超 级 块 ， 在 日 志 中 标记 该 事务 为 
空闲 。 


因此 ， 我 们 得 到 了 最 终 的 数据 日 志 协 议 。 但 仍然 存在 一 个 问题 : 我 们 

将 每 个 数据 块 写 入 磁盘 两 次 ， 这 是 沉重 的 成 本 ， 特 别 是 为 了 系统 骨 误 

罕见 的 事情 。 你 能 找到 一 种 方法 来 保持 一 致 性 ， 而 无 须 两 次 写 入 
掉 吗 ? 


元 数据 日 志 











尽管 恢复 现在 很 快 “扫描 日 志 并 重 放 一 些 事务 而 不 是 扫描 整个 磁 
盘 ) ， 但 文件 系统 的 正常 操作 比 我 们 想 要 的 要 慢 。 特 别 是 ， 对 于 每 次 
写 入 磁盘 ， 我 们 现在 也 要 先 写 入 日 志 ， 从 而 使 号 入 流量 加 倍 。 在 顺序 
写 入 工作 负载 期 间 ， 这 种 加 倍 尤为 痛 兰 ， 现 在 将 以 驱动 器 峰值 写 入 带 
宽 的 一 半 进 行 。 此 外 ， 在 号 入 日 志和 写 入 主 文件 系统 之 间 ， 存 在 代价 
高 昂 的 寻 道 ， 这 为 某 些 工作 负载 增加 了 显著 的 开销 。 


由 于 将 每 个 数据 块 写 入 磁盘 的 成 本 很 高 ， 人 们 为 了 提高 性 能 ， 淮 试 了 
一 些 不 同 的 东西 。 例 如 ， 我 们 上 面 描述 的 日 志 模 式 通常 称 为 数据 日 志 
(data journaling， 如 在 Linux ext3 中 ) ， 因 为 它 记 录 了 所 有 用 户 数 
据 ( 除 了 文件 系统 的 元 数据 之 外 ) 。 一 种 更 简单 (也 更 常见 ) 的 日 志 
形式 有 时 称 为 有 序 日 志 (ordered journaling， 或 称 为 元 数据 日 志 ， 
metadata journaling) ， 它 几乎 相同 ， 只 是 用 户 数据 没有 写 入 日 志 。 
因此 ， 在 执行 与 上 述 相同 的 更 新 时 ， 以 下 信息 将 写 入 日 志 : 


I a — 


先前 写 入 日 志 的 数据 块 Db 将 改 为 写 入 文件 系统 ， 避 免 额 外 写 入 。 考 虑 
到 磁盘 的 大 多 数 1/0 流 量 是 数据 ， 不 用 两 次 写 入 数据 会 大 大 减少 日 志 的 
I1/0 负 载 。 然 而 ， 修 改 确实 提出 了 一 个 有 趣 的 问题 ， 我们 何 时 应 该 将 数 
据 块 写 入 磁盘 ? 


再 考虑 一 下 文件 追加 的 例子 ， 以 更 好 地 理解 问题 。 更 新 包含 3 个 块 : 
TILv2]、B[v2] 和 Db 。 前 两 个 都 是 元 数据 ， 将 被 记录 ， 然 后 加 检查 点 。 
后 者 只 会 写 入 文件 系统 一 次 。 什 么 时 候 应 该 把 Db 写 入 磁盘 ? 这 有 关系 


吗 ? 
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事实 证 明 ， 数 据 写 入 的 顺序 对 于 仪 元 数据 日 志 很 重要 。 例 如 ， 如 果 我 
们 在 事务 (包含 1 [v2] 和 B [v2] 〉 完成 后 将 Db 写 入 磁盘 如 何 ? 遗憾 的 
是 ， 这 种 方法 存在 一 个 问题 : 文件 系统 是 一 致 的 ， 但 I[v2j] 可 能 了 最 终 指 
同 垃 圾 数据 。 具 体 来 说 ， 考 虑 写 入 了 ILv2] 和 B[Lv2]， 但 Db 没有 写 入 磁 
盘 的 情况 。 然 后 文件 系统 将 尝试 恢复 。 由 于 Db 不 在 日 志 中 ， 因 此 文件 
系统 将 重 放 对 ILv2] 和 BLv2] 的 写 入 ， 并 生成 一 致 的 文件 系统 “从 文件 


系统 元 数据 的 角度 来 看 ) 。 但 是 ，I[v2j] 将 指向 垃圾 数据 ， 即 指向 Db 中 
的 任何 数据 。 


为 了 确保 不 出 现 这 种 情况 ， 在 将 相关 元 数据 写 入 磁盘 之 前 ， 一 些 文件 
系统 例如 ，Linux ext3) 先 将 数据 块 〈 常 规 文件 ) 写 入 人 磁盘。 具体 
来 说 ， 协 议 有 以 下 几 个 。 


1. 数据 写 入 : 将 数据 写 入 最 终 位 置 ， 等 待 完成 〈 等 待 是 可 选 的 ， 详 见 
小 20 


2. 日 志 元 数据 写 入 : 将 开始 块 和 元 数据 写 入 日 志 ， 等 待 写 入 完成 。 
见 


3. 日 志 提 交 : 将 事务 提交 块 (包括 TxE〉 写 入 日 志 ， 等 待 写 完成 ， 现 
在 认为 事务 (包括 数据 〉 已 提交 (committed) 。 
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5. 释放 : 稍 后 ， 在 日 志 超 级 块 中 将 事务 标记 为 空闲 。 


通过 强制 先 写 入 数据 ， 文 件 系 统 可 以 保证 指针 永远 不 会 指向 垃圾 。 实 
际 上 ， 这 个 “ 先 写 入 被 指 对 象 ， 再 写 入 指针 对 象 ”的 规则 是 骨 浊 一致 
性 的 核心 ， 并 且 被 其 他 崩溃 一 致 性 方案 [G6P94] 进 一 步 利 用 。 


在 大 多 数 系 统 中 ， 元 数据 日 志 〔( 类 似 于 ext3 的 有 序 日 志 ) 比 完整 数据 
日 志 更 受 欢 迎 。 例 如 ，Windows NTFS 和 SGI 的 XFS 都 使 用 无 序 的 元 数据 
日 志 。Linux ext3 为 你 提供 了 选择 数据 、 有 序 或 无 序 模式 的 选项 (在 
无 序 模式 下 ， 可 以 随时 写 入 数据 〉。 议 有 这 些 覃 式 痢 保持 元 数据 二 
致 ， 它 们 的 数据 语义 各 不 相同 。 


最 后 ， 请 注意 ， 在 发 出 写 入 日 志 ( 步 又 2) 之 前 强制 数据 写 入 完成 〈 步 
又 1) 不 是 正确 性 所 必需 的 ， 如 上 面 的 协议 所 示 。 具 体 来 说 ， 可 以 发 出 
数据 写 入 ， 并 同日 志 写 入 事务 开始 块 和 元 数据 。 唯 一 真正 的 要 求 ， 是 
在 发 出 日 志 提 交 块 之 前 完成 步骤 1 和 步骤 2〈 步 又 3) 


为 手 的 情况 : 块 复 用 

















一 些 有 趣 的 特殊 情况 让 日 志 更 加 琼 手 ， 因 此 值得 讨论 。 其 中 一 些 与 块 
复 用 有 关 。 正 如 Stephen Tweedie (ext3 背 后 的 主要 开发 者 之 一 ) 说 
的 : 


“整个 系统 的 可 怕 部 分 是 什么 ?…… 是 删除 文件 。 与 删除 有 关 的 一 切 
都 令 人 毛骨悚然 。 与 删除 有 关 的 一 切 …… 如 果 块 被 删除 然后 重新 分 
配 ， 你 会 做 喜 禁 。” [T00] 


Tweedie 给 出 的 具体 例子 如 下 。 假 设 你 正在 使 用 茶 种 形式 的 元 数据 日 志 
《因此 不 记录 文件 的 数据 块 ) 。 假 设 你 有 一 个 名 为 foo 的 目录 。 用 户 加 
foo 添 加 一 个 条 目 〈 例 如 通过 创建 文件 ) ， 因 此 foo 的 内 容 (因为 目录 
被 认为 是 元 数据 ) 被 写 入 日 志 。 假 设 foo 目 录 数 据 的 位 置 是 块 1000。 因 
此 日 志 包 含 如 下 内 容 : 





Dlfoo 
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[final addr:1000] 





此 时 ， 用 户 删 除 目录 中 的 所 有 内 容 以 及 目录 本 身 ， 从 而 释放 块 1000 以 
供 复 用 。 最 后 ， 用 户 创 建 了 一 个 新 文件 (比如 foobar) ， 结 果 复 用 了 
过 去 属于 foo 的 相同 块 〈1000) 。foobar 的 inode 提 交 给 磁盘 ， 其 数据 
也 是 如 此 。 但 是 ， 请 注意 ， 因 为 正在 使 用 元 数据 日 志 ， 所 以 只 有 
foobar 的 inode 被 提交 给 日 志 ， 文 件 foobar 中 块 1000 中 新 写 入 的 数据 没 
有 写本 有 目 记 8 
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现在 假设 发 生 了 崩 江 ， 所 有 这 些 信息 仍然 在 日 志 中 。 在 重 放 期 间 ， 恢 
复 过 程 简单 地 重 放 日 志 中 的 所 有 内 容 ， 包 括 在 块 1000 中 写 入 目录 数 
据 。 因 此 ， 重 放 会 用 旧 目 录 内 容 窗 盖 当 前 文件 foobar 的 用 户 数据 ! 显 
然 ， 这 不 是 一 个 正确 的 恢复 操作 ， 当 然 ， 在 阅读 文件 foobar 时 ， 用 户 
会 感到 惊讶 。 








这 个 问题 有 一 些 解雇 方案 。 例 如， 可 以 永远 不 再 重复 使 用 块 ， 直 到 所 

述 块 的 删除 加 上 检查 点 ， 从 日 志 中 清除 。Linux ext3 的 做 法 是 将 新 类 

型 的 记录 添加 到 日 志 中 ， 称 为 撤销 (revoke) 记录 。 在 上 面 的 情况 

中 ， 删 除 目 录 将 导致 撤销 记录 被 写 入 日 志 。 在 重 放 日 志 时 ， 系 统 首 先 

0 
术 问 题 





总 结 日 志 : 时 间 线 


在 结束 对 日 志 的 讨论 之 前 ， 我 们 总 结 一 下 讨论 过 的 协议 ， 用 时 间 线 来 
描述 每 个 协议 。 表 42. 1 展示 了 日 志 数 据 和 元 数据 时 的 协议 ， 表 42. 2 展 








示 了 仪 记录 元 数据 时 的 协议 。 
表 42. 1 数据 日 志 的 时 间 线 
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在 每 个 表 中 ， 时 间 同 下 增加 ， 表 中 的 每 一 行 显示 可 以 发 出 或 可 能 完成 
写 入 的 逻辑 时 间 。 例 如 ， 在 数据 日 志 协 议 〈 见 表 42. 1) 中 ， 事 务 开始 
块 (TxB) 的 写 入 和 事务 的 内 容 可 以 在 逻辑 上 同时 发 出 ， 因 此 可 以 按 任 
何 顺序 完成 。 但 是 ， 在 上 述 写 入 完成 之 前 ， 不 得 发 出 对 事务 结束 块 
CTxE) 的 写 入 。 同 样 ， 在 事务 结束 块 提交 之 前 ， 写 入 数据 和 元 数据 块 
的 加 检查 点 无 法 开始 。 水 平 虚线 表示 必须 遵守 的 写 入 顺序 要 求 。 


对 元 数据 日 志 协 议 也 显示 了 类 似 的 时 间 线 。 请 注意 ， 在 逻辑 上 ， 数 据 
写 入 可 以 与 对 事务 开始 的 号 入 和 日 志 的 内 容 一 起 发 出 。 但 是 ， 必 须 在 
事务 结束 发 出 之 前 发 出 并 完成 。 


最 后 ， 请 注意 ， 时 间 线 中 每 次 写 入 标记 的 完成 时 间 是 任意 的 。 在 实际 
系统 中 ， 完 成 时 间 由 I/0 子 系统 确定 ，I/0 子 系统 可 能 会 重新 排序 写 入 
以 提高 性 能 。 对 于 顺序 的 唯一 保证 ， 是 那些 必须 强制 执行 ， 才 能 保证 
协议 正确 性 的 顺序 。 

















42.4 解决 方案 3: 其 他 方法 


到 目前 为 止 ， 我 们 已 经 描述 了 保持 文件 系统 元 数据 一 致 性 的 两 个 可 选 
方法 : 基于 fsck 的 偷懒 方法 ， 以 及 称 为 日 志 的 更 活跃 的 方法 。 但 是 ， 
并 不 是 只 有 这 两 种 方法 。Ganger 和 Patt 引 入 了 一 种 称 为 软 更 新 LGP94] 
的 方法 。 这 种 方法 仔细 地 对 文件 系统 的 所 有 号 入 排序 ， 以 确保 磁盘 上 
的 结构 永远 不 会 处 于 不 一 致 的 状态 。 例 如 ， 通 过 先 写 入 指 癌 的 数据 
块 ， 再 写 入 指 癌 它 的 inode， 可 以 确保 inode 永 远 不 会 指 癌 垃 圾 。 对 文 
件 系 统 的 所 有 结构 可 以 导出 类 似 的 规则 。 然 而 ， 实 现 软 更 新 可 能 是 一 
个 挑战 。 上 述 日 志 层 的 实现 只 需要 具体 文件 系统 结构 的 较 少 知识 ， 但 
软 更 新 需要 每 个 文件 系统 数据 结构 的 复杂 知识 ， 因 此 给 系统 增加 了 相 
当 大 的 复杂 性 。 


另 一 种 方法 称 为 写 时 复制 (Copy-0n-Write，COW) ， 并 且 在 许多 流行 
的 文件 系统 中 使 用 ， 包 括 Sun 的 ZFS [B07] 。 这 种 技术 永远 不 会 覆 写 文 
件 或 目录 。 相 反 ， 它 会 对 磁盘 上 以 前 未 使 用 的 位 置 进行 新 的 更 新 。 在 
完成 许多 更 新 后 ，COW 文 件 系 统 会 翻转 文件 系统 的 根 结 构 ， 以 包含 指 问 
刚 更 新 结构 的 指针 。 这 样 做 可 以 使 文件 系统 保持 一 致 。 在 将 来 的 章节 





中 讨论 日 志 结 构 文件 系统 (LFS) 时， 我 们 将 学 习 更 多 关于 这 种 技术 的 
知识 。LFS 是 COW 的 早期 范例 。 


另 一 种 方法 是 我 们 刚刚 在 威斯康星 大 学 开发 的 方法 。 这 种 技术 名 为 基 
于 反 向 指针 的 一 致 性 (Backpointer-Based Consistency，BBC) ， 它 
在 写 入 之 间 不 强制 执行 排序 。 为 了 实现 一 致 性 ， 系 统 中 的 每 个 块 都 会 
添加 一 个 额外 的 反问 指针 。 例 如， 每 个 数据 块 都 引用 它 所 属 的 inode。 
访问 文件 时 ， 文 件 系 统 可 以 检查 正 向 指针 (inode 或 直接 块 中 的 地 址 ) 
是 否 指 癌 引用 它 的 块 ， 从 而 确定 文件 是 否 一 致 。 如 果 是 这 样 ， 一 切 都 
肯定 安全 地 到 达 磁 盘 ， 因 此 文件 是 一 致 的 。 如 果 不 是 ， 则 文件 不 一 
致 ， 并 返回 错误 。 通 过 回 文 件 系 统 添加 反 回 指针 ， 可 以 获得 一 种 新 形 
式 的 惰性 骨 溃 一 致 性 [C+12] 。 


最 后 ， 我 们 还 探索 了 减少 日 志 协 议 等 待 磁盘 写 入 完成 的 次 数 的 技术 。 
这 种 新 方法 名 为 乐观 骨 尝 一致 性 (optimistic crash consistency ) 
[C+13] ， 尽 可 能 多 地 回 磁 盘 发 出 写 入 ， 并 利用 事务 校 验 和 
(transaction checksum) [P+05] 的 一 般 形式 ， 以 及 其 他 一 些 技术 来 
检测 不 一 致 ， 如 果 出 现 不 一 致 的 话 。 对 于 某 些 工作 负载 ， 这 些 乐 观 技 
术 可 以 将 性 能 提高 一 个 数量 级 。 但 是 ， 要 真正 运行 恨 好 ， 需 要 稍微 不 
同 的 磁盘 接口 [C+13] 。 











42.5 小 结 


我 们 介绍 了 骨 瀑 一致 性 的 问题 ， 并 讨论 了 处 理 这 个 问题 的 各 种 方法 。 
构建 文件 系统 检查 程序 的 旧 方 法 有 效 ， 但 在 现代 系统 上 恢复 可 能 大 
慢 。 因 此 ， 许 多 文件 系统 现在 使 用 日 志 。 日 志 可 将 恢复 时 间 从 0 磁盘 
大 小 的 卷 ) 减少 到 0 (日 志 大 小 ，， 从 而 在 月 江 和 重新 启动 后 大 大 加 快 
恢复 速度 。 因 此 ， 许 多 现代 文件 系统 都 使 用 日 志 。 我 们 还 看 到 日 志 可 
以 有 多 种 形式 。 最 第 用 的 是 有 序 元 数据 日 志 ， 它 可 以 减少 日 志 流 量 ， 
同时 仍然 保证 文件 系统 元 数据 和 用 户 数 据 的 合理 一 致 性 。 
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如 果 你 想 在 B 之 前 将 A 写 入 磁盘 ， 首 先 写 A， 然 后 癌 磁 盘 发 送 大 量 “ 虚 
拟 ” 写 入 ， 希望 将 A 强制 写 入 磁盘 ， 以 便 为 它们 在 缓存 中 腾 出 空间 。 一 
个 简洁 但 不 太 实 际 的 解决 方 采 。 


[T98] “Journaling the Linux ext2fs File System” Stephen ©C. 
Tweedie 














The Fourth Annual Linux Expo, May 1998 


Tweedie 在 为 Linux ext2 文 件 系 统 添加 日 志方 面 做 了 大 量 工 作 。 结 果 尝 
不 奇怪 地 被 称 为 ext3。 一 些 不 错 的 设计 决策 包括 强烈 关注 问 后 兼容 
性 ， 例 如 ， 你 只 需 将 日 志文 件 添加 到 现 有 的 ext2 文 件 系统 ， 然 后 将 其 
挂 载 为 ext3 文 件 系 统 。 


LT00]“EXT3，Journaling Filesystem” Stephen Tweedie 





Talk at the Ottawa Linux Symposium, July 
olstrans. sourceforge. net/release/OLS2000-ext3/0LS2000- 
ext3. html 


Tweedie 关 于 ext3 的 演讲 的 文字 记录 。 


[TO1] “The Linux ext2 File System” Theodore Ts”o， 
2001. 


2000 


June, 


一 个 简单 的 Linux 文 件 系 统 ， 基 于 FFS 中 的 想法 。 有 一 段 时 间 它 被 大 量 





使 用 ， 现 在 它 真 的 只 是 在 内 核 中 作为 简单 文件 系统 的 一 个 例子 。 


[1]， 但 是 ， 对 于 刚 丢 失 一 些 数据 的 用 户 来 说 ， 这 可 能 是 一 个 问题 ! 


[2] 发 音 为 “eff-ess-see-kay”“eff-ess-check”， 或 者 ， 如 果 你 
不 喜欢 这 个 工具 ， 那 就 用 “eff- suck”。 是 的 ， 严 肃 的 专业 人 士 使 用 


这 个 术语 。 


[3]， 除非 你 担心 一 切 ， 在 这 种 情况 下 我 们 无 法 帮助 你 。 不 要 太 担 心 ， 


这 是 不 健康 的 ! 但 现在 你 可 能 担心 自己 会 过 度 担心 。 


第 43 章 ”日志 结构 文件 系统 


在 20 世 纪 90 年 代 早 期 ， 由 John Ousterhout 教授 和 研究 生 Mendel 
Rosenblum 领 导 的 伯克利 小 组 开发 了 一 种 新 的 文件 系统 ， 称 为 日 志 结 构 
文件 系统 [R091] 。 他 们 这 样 做 的 动机 是 基于 以 下 观察 。 








内 存 大 小 不 断 增长 。 随 着 内 存 越 来 越 大 ， 可 以 在 内 存 中 缓存 更 多 
数据 。 随 着 更 多 数据 的 缓存 ， 磁 盘 流 量 将 越 来 越 多 地 由 写 入 组 
成 ， 因 为 读 取 将 在 缓存 中 进行 处 理 。 因 此 ， 文 件 系统 性 能 很 大 程 
度 上 取决 于 写 入 性 能 。 

随机 I/0 性 能 与 顺序 I1/0 性 能 之 间 存 在 巨大 的 差距 ， 上 且 不 断 扩大 : 
传输 带宽 每 年 增加 约 50% 一 100%。 寻 道 和 旋转 延迟 成 本 下 降 得 较 
慢 ， 可 能 每 年 5% 一 10%[LP98] 。 因 此 ， 如 果 能 够 以 顺序 方式 使 用 磁 
盘 ， 则 可 以 获得 巨大 的 性 能 优势 ， 随 着 时 间 的 推移 而 增长 。 

现 有 文件 系统 在 许多 常见 工作 负载 上 表现 不 佳 。 例 如 ，FFS 
[MJLF84] 会 执行 大 量 写 入 ， 以 创建 大 小 为 一 个 块 的 新 文件 :一 个 
用 于 新 的 inode， 一 个 用 于 更 新 inode 位 图 ， 一 个 用 于 文件 所 在 的 
目录 数据 块 ， 一 个 用 于 目录 inode 以 更 新 它 ， 一 个 用 于 新 数据 块 ， 
它 是 新 文件 的 一 部 分 ， 另 一 个 是 数据 位 图 ， 用 于 将 数据 块 标记 为 
己 分 配 。 因 此 ， 尽 管 FFS 会 将 所 有 这 些 块 放 在 同一 个 块 组 中 ,但 
FFS 会 导致 许多 短 寻 道 和 随后 的 旋转 延迟 ， 因 此 性 能 远 远 低 于 峰值 
顺序 带宽 。 

文件 系统 不 支持 RAID。 例 如 ，RAID-4 和 RAID-5 具 有 小 写 入 问题 
(small-write problem) ， 即 对 单个 块 的 逻辑 写 入 会 导致 4 个 物 
0 0 
入 行为 。 








因此 ， 理 想 的 文件 系统 会 专注 于 写 入 性 能 ， 并 尝试 利用 磁盘 的 顺序 带 


ee 
Uo 


此 外 ， 它 在 常见 工作 负载 上 表现 民 好 ， 这 种 负载 不 仅 写 出 数据 ， 


还 经 党 更 新 磁盘 上 的 元 数据 结构 。 最 后 ， 它 可 以 在 RAID 和 单个 磁盘 上 


Se 


运行 


民 好 。 





引入 的 新 型 文件 系统 Rosenblum 和 Ousterhout 称 为 LFS， 是 日 志 结 构 文 
件 系 统 (Log-structured File System) 的 缩写 。 写 入 磁盘 时 ，LFS 首 
先 将 所 有 更 新 (包括 元 数据 ! ) 缓冲 在 内 存 段 中 。 当 段 已 满 时 ， 它 会 
在 一 次 长 时 间 的 顺序 传输 中 写 入 磁盘 ， 并 传输 到 磁盘 的 未 使 用 部 分 。 
LFS 永 远 不 会 履 写 现 有 数据 ， 而 是 始终 将 段 写 入 空闲 位 置 。 由 于 段 很 
大 ， 因 此 可 以 有 效 地 使 用 磁盘 ， 并 且 文 件 系 统 的 性 能 接近 其 峰值 。 


关键 问题 ， 如何 让 所 有 写 入 变 成 顺序 写 入 ? 


文件 系统 如 何 将 所 有 写 入 转换 为 顺序 写 入 ? 对 于 读 取 ， 此 任 
务 是 不 可 能 的 ， 因 为 要 读 取 的 所 需 块 可 能 是 磁盘 上 的 任何 位 
置 。 但 是 ， 对 于 写 入 ， 文 件 系统 总 是 有 一 个 选择 ， 而 这 正 是 
我 们 希望 利用 的 选择 。 











43. 1 按 顺 序 写 入 磁盘 


因此 ， 我 们 遇 到 了 第 一 个 挑战 : 如 何 将 文件 系统 状态 的 所 有 更 新 转换 
为 对 磁盘 的 一 系列 顺序 写 入 ? 为 了 更 好 地 理解 这 一 点 ， 让 我 们 举 一 个 
简单 的 例子 。 想 象 一 下 ， 我 们 正在 将 数据 块 D 写 入 文件 。 将 数据 块 写 入 


磁盘 可 


Al 


能 会 导致 以 下 磁盘 布局 ， 其 中 D 写 在 磁盘 地 址 A0: 








但 是 ， 当 用 户 写 入 数据 块 时 ， 不 仅 是 数据 被 写 入 人 磁盘， 还 有 其 他 需要 
更 新 的 元 数据 (metadata) 。 在 这 个 例子 中 ， 让 我 们 将 文件 的 


inode (1) 也 写 入 磁 和 檀 ， 并 将 其 指 同 数据 块 D。 写 入 磁盘 时 ， 数 据 块 和 
inode 看 起 来 像 这 样 ( 注 意 inode 看 起 来 和 数据 块 一 样 大 ， 但 通常 情况 
8 在 大 多 数 系统 中 ， 数 据 块 大 小 为 1B， 而 inode 小 得 多 ， 大 
约 128B) : 








提示 : 细节 很 重要 


所 有 有 趣 的 系统 都 包含 一 些 一 般 性 的 想法 和 一 些 细 节 。 有 
时 ， 在 学 习 这 些 系统 时 ， 你 会 对 自己 说 ，“ 哦 ， 我 抓 住 了 一 
般 的 想法 ， 其 余 的 只 是 细节 说 明 。” 你 这 样 想 时 ， 对 事情 是 
如 何 运作 的 只 是 一 知 半 解 。 不 要 这 样 做 ! 很 多 时 候 ， 细 节 至 
关 重 要 。 正 如 我 们 在 LFS 中 看 到 的 那样 ， 一 般 的 想法 很 容易 理 
0 必须 仔细 考虑 所 有 惠 





简单 地 将 所 有 更 新 (例如 数据 块 、inode 等 ) 顺序 写 入 磁盘 的 这 一 基本 
思想 是 LFS 的 核心 。 如 果 你 理解 这 一 点 ， 就 抓 住 了 基本 的 想法 。 但 就 像 
所 有 复杂 的 系统 一 样 ， 魔 鬼 藏 在 细节 中 。 


43.2 顺序 而 高 效 地 写 入 





遗憾 的 是 ，《 单 单 ) 顺序 写 入 磁盘 并 不 足以 保证 高 效 写 入 。 例 如 ， 假 
设 我 们 在 时 间 T 同 地 址 A 写 入 一 个 块 。 然 后 等 竺 一 会 儿 ， 再 向 磁盘 写 入 
地 址 At1 《下 一 个 块 地 址 按 顺 序 ) ， 但 是 在 时 间 T+ 5 。 遗 憾 的 是 ， 在 第 
一 次 和 第 二 次 写 入 之 间 ， 磁 盘 已 经 旋转 。 当 你 发 出 第 二 次 写 入 时 ， 它 
将 在 提交 之 前 等 待 一 大 圈 旋 转 ( 具 体 地 说 ， 如 果 旋 转 需 要 时 间 
Tiotation 则 磁盘 将 等 待 Toiation 一 6， 然后 才能 将 第 二 次 写 入 提交 到 
磁盘 表面 )。 因 此 ， 你 可 以 希望 看 到 简单 地 按 顺 序 写 入 磁盘 不 足以 实 
现 最 佳 性 能 。 实 际 上 ， 你 必须 向 驱动 器 发 出 大 量 连续 写 入 《或 一 次 大 
写 入 ) 才能 获得 恨 好 的 写 入 性 能 。 


为 了 达到 这 个 目的 ，LFS 使 用 了 一 种 称 为 写 入 缓冲 ti (write 

buffering) 的 古老 技术 。 在 写 入 磁盘 之 前 ，LFS 会 跟踪 内 存 中 的 更 

1 会 立即 将 它们 写 入 磁盘 ， 从 而 确保 有 效 
做 盘 。 


LFS 一 次 写 入 的 大 块 更 新 被 称 为 段 〈segment ) 。 虽 然 这 个 术语 在 计算 
机 系统 中 被 过 度 使 用 ， 但 这 里 的 意思 是 LFS 用 来 对 写 入 进行 分 组 的 大 
块 。 因 此 ， 在 写 入 磁盘 时 ，LEFS 会 缓冲 内 存 段 中 的 更 新 ， 然 后 将 该 段 一 
次 性 写 入 磁盘 。 只 要 段 足够 大 ， 这 些 写 入 就 会 很 有 效 。 


下 面 是 一 个 例子 ， 其 中 LFS 将 两 组 更 新 缓冲 到 一 个 小 段 中 。 实 际 段 更 大 
( 几 MB) 。 第 一 次 更 新 是 对 文件 j 的 4 次 块 写 入 ， 第 二 次 是 添加 到 文件 k 
的 一 个 块 。 然 后 ，LFS 立 即将 整个 七 个 块 的 段 提 交 到 磁盘 。 这 些 块 的 磁 
盘 布 局 如 下 : 














Al Al A2 A; Inode[]|AS Inode[k] 


43.3 ”要 缓冲 多 少 


这 提出 了 以 下 问题 : LFS 在 写 入 磁盘 之 前 应 该 缓冲 多 少 次 更 新 ? 答案 当 
然 取决 于 磁盘 本 身 ， 特 别 是 与 传输 速率 相 比 定位 开销 有 多 高 。 有 关 类 
似 的 分 析 ， 请 参阅 FFS 相 关 的 章节 。 


例如 ， 假 设 在 每 次 写 入 之 前 定位 〈( 即 旋转 和 寻 道 开销 ， 大约 需要 
Tosition Ss。 进一步 假设 磁盘 传输 速率 是 Rssy MB / s。 在 这 样 的 磁盘 
上 运行 时 ，LFS 在 写 入 之 前 应 该 缓冲 多 少 ? 

考虑 这 个 问题 的 方法 是 ， 每 次 写 入 时 ， 都 需要 支付 固定 的 定位 成 本 。 
因此 ， 为 了 摊 销 (amortize) 这 笔 成 本 ， 你 需要 写 入 多 少 ? 写 入 越 多 
就 越 好 (显然 )， 越 接近 达到 峰值 带宽 。 

为 了 得 到 一 个 具体 的 答案 ， 假 设 要 写 入 7 MB 数据 。 写 数 据 块 的 时 间 


D 


Trize 是 定位 时 间 Toosrzrox 的 加 上 4 的 传输 时 间 及 = ， 即 














ee 


7 7 十 总 


write “DoSs7TL7O7 


(43.1) 


因此 ， 有 效 写 入 速率 (Asrrecizre) 就 是 写 入 的 数据 量 除 以 写 入 的 总 时 
间 ， 即 


D D 
Ka 二 ER 二 D 


i (43. 2) 
我 们 感 兴趣 的 是 ， 让 有 效 速 率 (中 ) 接近 峰值 速率 。 有 具体 而 
言 ， 我 们 希望 有 效 速 率 与 峰值 速率 的 比值 是 某 个 分 数 户 其 中 0 《F 


《1 〈 典 型 的 Z 可 能 是 0.9， 即 峰值 速率 的 90%) 。 用 数学 表示 ， 这 意味 着 
我 们 需要 如.rreczzrre = feake 


此 时 ， 我 们 可 以 解 出 馆 








Pr (43. 3) 


站 ie (43. 4) 
| Rk (43. 5) 
六 RR er 
TF Ree Te (43. 6) 


举 个 例子 ， 一 个 磁盘 的 定位 时 间 为 10ms， 峰 值 传输 速率 为 100MB/s。 假 
设 我 们 希望 有 效 带 宽 达 到 峰值 的 90% (= 0.9) 。 在 这 种 情况 下 ，Z = 
0. 9X100MB/sX0.01s= 9MB。 请 尝试 一 些 不 同 的 值 ， 看 看 需要 绥 冲 多 
少 才能 接近 峰值 带宽 ， 达 到 95% 的 峰值 需要 多 少 ， 达 到 99% 呢 ? 





43.4 问题 : 查找 inode 


要 了 解 如 何在 LFS 中 找到 inode， 让 我 们 简单 回顾 一 下 如 何在 典型 的 
UNIX 文 件 系统 中 查找 inode。 在 典型 的 文件 系统 〈 如 FFS) 甚至 老 UNIX 
文件 系统 中 ， 查 找 inode 很 容易 ， 因 为 它们 以 数组 形式 组 织 ， 并 放 在 磁 
盘 的 固定 位 置 上 。 


例如 ， 老 UNIX 文 件 系 统 将 所 有 inode 保 存在 磁盘 的 固定 位 置 。 因 此 ， 给 
定 一 个 inode 号 和 起 始 地 址 ， 要 查找 特定 的 inode， 只 需 将 inode 号 乘 以 
inode 的 大 小 ， 然 后 将 其 加 上 磁盘 数组 的 起 始 地 址 ， 即 可 计算 其 确切 的 
破 盘 地 址 。 给 定 一 个 inode 号 ， 基 于 数组 的 索引 是 快速 而 直接 的 。 


在 FFS 中 查找 给 定 inode 号 的 inode 仅 稍微 复杂 一 些 ， 因 为 FFS 将 inode 表 
拆 分 为 块 并 在 每 个 柱 面 组 中 放置 一 组 inode。 因 此 ， 必 须知 道 每 个 
inode 块 的 大 小 和 每 个 inode 的 起 始 地 址 。 之 后 的 计算 类 似 ， 也 很 容 
易 。 


在 LFS 中 ， 和 生活 比较 艰难 。 为 什么 ?好 吧 ， 我 们 已 经 设法 将 ijnode 分 散 
在 整个 磁盘 上 ! 更 糟 米 的 是 ， 我 们 永远 不 会 覆盖 ， 因 此 最 新 版 本 的 
inode ( 即 我 们 想 要 的 那个 ) 会 不 断 移动 。 





43.5 通过 间接 解决 方案 : inode 映 射 


为 了 解决 这 个 问题 ，LFS 的 设计 者 通过 名 为 inode 映 射 〈inode map， 
imap) 的 数据 结构 ， 在 inode 号 和 inode 之 间 引 入 了 一 个 间接 层 (level 
of indirection) 。imap 是 一 个 结构 ， 它 将 inode 号 作为 输入 ， 并 生成 
最 新 版 本 的 ijnode 的 磁盘 地 址 。 因 此 ， 你 可 以 想象 它 通 常 被 实现 为 一 个 
简单 的 数组 ， 每 个 条 目 有 4 个 字 节 【一 个 磁盘 指针 ) 。 每 次 将 inode 写 
入 厂 盘 时 ，imap 都 会 使 用 其 新 位 置 进行 更 新 。 








提示 : 使 用 一 个 间接 层 


人 们 和 常 说 ， 计 算 机 科学 中 所 有 问题 的 解决 方案 就 是 一 个 间接 
层 (level of indirection) 。 这 显然 不 是 真有 的 ， 它 只 是 大 
多 数 问 题 的 解决 方案 。 你 当然 可 以 将 我 们 研究 的 每 个 虚拟 化 
(例如 虚拟 内 存 ) 视 为 间接 层 。 当 然 LFS 中 的 inode 映 射 是 
inode 号 的 虚拟 化 。 和 希望 你 可 以 在 这 些 示 例 中 看 到 间接 的 强大 
功能 ， 人 允许 我 们 目 由 移动 结构 《例如 VM 例子 中 的 页 面 ， 或 LFS 
中 的 inode) ， 而 无 需 更 改 对 它们 的 每 个 引用 。 当 然 ， 间 接 也 
可 能 有 一 个 缺点 : 额外 的 开销 。 所 以 下 次 遇 到 问题 时 ， 请 尝 
试 使 用 间接 解决 方案 。 但 请 务必 先 考 卡 这样 做 的 开销 。 








遗憾 的 是 ，imap 需 要 保持 持久 〈 写 入 破 盘 ) 。 这 样 做 允许 LFS 在 崩 江 时 
仍 能 记录 inode 位 置 ， 从 而 按 设想 运行 。 因 此 有 一 个 问题 : imap 应 该 驻 
留 在 磁盘 上 的 哪个 位 置 ? 


当然 ， 它 可 以 存在 于 磁盘 的 固定 部 分 。 遗 憾 的 是 ， 由 于 它 经 第 更 新 ， 
因此 需要 更 新 文件 结构 ， 然 后 写 入 imap， 因 此 性 能 会 受到 影响 (每 次 
的 更 新 和 imap 的 固定 位 置 之 间 ， 会 有 更 多 的 磁盘 寻 道 ) 。 


与 此 不 同 ，LFS 将 inode 映 射 的 块 放 在 它 写 入 所 有 其 他 新 信息 的 位 置 旁 
边 。 因 此 ， 当 将 数据 块 追加 到 文件 k 时 ，LFS 实 际 上 将 新 数据 块 ， 其 
inode 和 一 段 inode 映 射 一 起 写 入 磁盘 ， 如 下 所 示 : 








在 该 图 中 ，imap 数 组 存储 在 标记 为 imap 的 块 中 ， 它 告诉 LFS，inode k 
位 于 磁盘 地 址 A1。 接 下 来 ， 这 个 inode 告 诉 LFS 它 的 数据 块 D 在 地 址 A0。 


43.6 检查 点 区 域 


聪明 的 读者 《就 是 你 ， 对 吗 ? ) 可 能 已 经 注意 到 了 这 里 的 问题 。 我 们 
如 何 找 到 inode 映 射 ， 现 在 它 的 各 个 部 分 现在 也 分 布 在 整个 磁盘 上 ? 归 
根 到 底 : 文件 系统 必须 在 磁盘 上 有 一 些 固定 且 已 知 的 位 置 ， 才 能 开始 
文件 宜 找 。 


LFS 在 磁盘 上 只 有 这 样 一 个 固定 的 位 置 ， 称 为 检查 点 区 域 (checkpoint 
region，CR) 。 检 查 点 区 域 包含 指 癌 最 新 的 inode 映 射 片段 的 指针 《〈 即 
地 址 ) ， 因 此 可 以 通过 首先 读 取 CR 来 找到 inode 映 射 片段 。 请 注意 ， 检 
查 点 区 域 仪 定期 更 新 (例如 每 30s 左 右 ) ， 因 此 性 能 不 会 受到 影响 。 因 
此 ， 人 磁盘 布局 的 整体 结构 包含 一 个 检查 点 区 域 ( 指 同 内 部 映射 的 最 新 
部 分 ) ， 每 个 inode 上 映射 块 包 含 inode 的 地 址 ，inode 指 向 文件 (和 目 
录 ) ， 就 像 典 型 的 UNIX 文 件 系统 一 样 。 


下 面 的 例子 是 检查 点 区 域 注意 它 始 终 位 于 磁盘 的 开头 ， 地 址 为 0) ， 
以 及 单个 imap 块 ，inode 和 数据 块 。 一 个 真正 的 文件 系统 当然 会 有 一 个 
更 大 的 CR〈 事 实 上 ， 它 将 有 两 个 ， 我 们 稍 后 会 理解 ) ， 许 多 imap 块 ， 
当然 还 有 更 多 的 inode、 数 据 块 等 。 











43.7 从 磁盘 读 取 文件 :回顾 


为 了 确保 理解 LFS 的 工作 原理 ， 现 在 让 我 们 来 看 看 从 磁盘 读 取 文 件 时 必 
须发 生 的 事情 。 假 设 从 内 存 中 没有 任何 东西 开始 。 我 们 必须 读 取 的 第 
一 个 磁盘 数据 结构 是 检查 点 区 域 。 检 查 点 区 域 包含 指 癌 整个 inode 映 射 
的 指针 《磁盘 地 址 ) ， 因 此 LFS 读 入 整个 inode 映 射 并 将 其 缓存 在 内 存 
中 。 在 此 之 后 ， 当 给 定 文 件 的 inode 号 时 ，LFS 只 是 在 imap 中 查找 inode 
号 到 inode 磁 盘 地 址 的 映射 ， 并 读 入 最 新 版 本 的 inode。 要 从 文件 中 读 
取 块 ， 此 时 ，LFS 完 全 按照 典型 的 UNIX 文 件 系统 进行 操作 ， 方 法 是 使 用 
直接 指针 或 间接 指针 或 双重 间接 指针 。 在 通常 情况 下 ， 从 磁盘 读 取 文 
件 时 ，LFS 应 执行 与 典型 文件 系统 相同 数量 的 I/0， 整 个 imap 被 缓存 ， 
因此 LFS 在 读 取 过 程 中 所 做 的 额外 工作 是 在 imap 中 查找 inode 的 地 址 。 


43.8 目录 如 何 


到 目前 为 止 ， 我 们 通过 仅 考 虑 inode 和 数据 块 ， 简 化 了 讨论 。 但 是 ， 要 
访问 文件 系统 中 的 文件 (例如 /home/remzi/foo， 我 们 最 喜欢 的 伪 文 件 
名 之 一 ) ， 也 必须 访问 一 些 目录 。 那 么 LFS 如 何 存储 目录 数据 呢 ? 


幸运 的 是 ， 目 录 结 构 与 传统 的 UNIX 文 件 系统 基本 相同 ， 因 为 目录 只 是 
名称，inode 号 ) 映射 的 集合 。 例 如 ， 在 磁盘 上 创建 文件 时 ，LFS 必 








须 同 时 写 入 新 的 inode， 一 些 数据 ， 以 及 引用 此 文件 的 目录 数据 及 其 
inode。 请 记 住 ，LFS 将 在 磁盘 上 按 顺 序 写 入 《在 缓冲 更 新 一 段 时 间 
后 ) 。 因 此 ， 在 目录 中 创建 文件 foo， 将 导致 磁盘 上 的 以 下 新 结构 : 








inode 映 射 的 片段 包含 目录 文件 dir 以 及 新 创建 的 文件 f 的 位 置信 息 。 
此 ， 访 问 文件 foo (具有 inode 写 f) 时 ， 你 先 要 查看 inode 映 射 (通常 
i 找到 目录 dir (A3) 的 inode 的 位 置 。 然后 读 取 目录 
的 inode，， 从 你 目录 数据 的 位 置 (A2) 。 读 取 此 数据 块 为 你 提供 名 称 
| (foos Ka 然后 再 次 查阅 inode 映 射 ， 找到 irode 号 
k (AL1) 的 位 置 ， 最 后 在 地 址 A0 处 读 取 所 需 的 数据 块 。 


inode 映 射 还 解决 了 LFS 中 存在 的 男 一 个 严重 问题 ， 称 为 递归 更 新 问题 

(recursive update problem) [Z+12] 。 任 何 永远 不 会 原 地 更 新 的 文 
件 系 统 ( 例 如 LFS〉 都 会 遇 到 该 问题 ， 它 们 将 更 新 移动 到 磁盘 上 的 新 位 
置 。 











具体 来 说 ， 每 当 更 新 ijnode 时 ， 它 在 磁盘 上 的 位 置 都 会 发 生变 化 。 如 果 
我 们 不 小 心 ， 这 也 会 导致 对 指向 该 文件 的 目录 的 更 新 ， 然 后 必须 更 改 
该 目录 的 父 目录 ， 依 此 类 推 ， 一 路 沿 文件 系统 树 向 上 。 


LFS 巧 妙 地 避免 了 inode 映 射 的 这 个 问题 。 即 使 inode 的 位 置 可 能 会 发 生 
变化 ， 更 改 也 不 会 反映 在 目录 本 身 中 。 事 实 上 ， nan 结构 被 更 新 ， 而 
目录 保持 相同 的 名 称 到 inumber 的 映射 。 因 此 ， 通 过 间接 ，LFS 避 免 了 
递归 更 新 问题 。 





43.9 一 个 新 间 题 : 垃圾 收集 


你 可 能 已 经 注意 到 LFS 的 另 一 个 问题 ， 它 会 反复 将 最 新 版 本 的 文件 ( 包 
括 其 inode 和 数据 ) 写 入 磁盘 上 的 新 位 置 。 此 过 程 在 保持 写 入 效率 的 同 
时 ， 意 味 着 LFS 会 在 整个 磁盘 中 分 散 旧版 本 的 文件 结构 。 我 们 《〈 有 不 客 
气 地 ) 将 这 些 旧 版 本 称 为 垃圾 (garbage) 。 


例如 ,假设 有 一 个 由 inode 写 k 引 用 的 现 有 了 文件， 该 文件 指 疝 单个 数据 
块 D0。 我 们 现在 窗 盖 该 块 ， 生 成 新 的 inode 和 新 的 数据 块 。 由 此 产生 的 
LFS 磁 盘 布局 看 起 来 像 这 样 〈 注 意 ， 简 单 起 见 ， 我 们 省 略 了 imap 和 其 他 
结构 。 还 需要 将 一 个 新 的 imap 大 块 写 入 磁盘 ， 以 指 同 新 的 inode) : 








blk[0]A4 


II 





AU (both garbage) A4 


在 图 中 ， 可 以 看 到 inode 和 数据 块 在 磁盘 上 有 两 个 版 本 ， 一 个 是 旧 的 
(左边 那个 ) ， 一 个 是 当前 的 ， 因 此 是 活 的 《1ive， 右 边 那个 ) 。 对 
于 履 盖 数 据 块 的 简单 行为 ，LFS 必 须 持 和 久 许 多 新 结构 ， 从 而 在 磁盘 上 留 
下 上 述 块 的 旧版 本 。 


另外 举 个 例子 ， 假 设 我 们 将 一 块 添加 到 该 原始 文件 k 中 。 在 这 种 情况 
下 ， 会 生成 新 版 本 的 inode， 但 旧 数 据 块 仍 由 旧 inode 指 向 。 因 此 ， 它 
仍然 存在 ， 并 且 与 当前 文件 系统 分 离 : 





blk[O]AO IKIOLAD 


pIk[1]:A4 
IIk| Ik] 





Al (garbage) 人 A4 


那么 ， 应 该 如 何 处 理 这 些 旧 版 本 的 inode、 数 据 块 等 呢 ? 可 以 保留 那些 
旧版 本 并 允许 用 户 恢 复 旧 文件 版 本 《例如 ， 当 他 们 意外 履 盖 或 删除 文 
件 时 ， 这 样 做 可 能 非常 方便 )。 这 样 的 文件 系统 称 为 版 本 控制 文件 系 
统 (versioning file system) ， 因 为 它 跟踪 文件 的 不 同 版 本 。 


但 是 ，LFS 只 保留 文件 的 最 新 活 版 本 。 因 此 (在 后 台 ，〉，LFS 必 须 定期 
查找 文件 数据 ， 索 引 节 点 和 其 他 结构 的 旧 的 死 版 本 ， 并 清理 (clean) 
它们 。 因 此 ， 清 理应 该 使 磁盘 上 的 块 再 次 空间 ， 以 便 在 后 续 写 入 中 使 
用 。 请 注意 ， 清 理 过 程 是 垃圾 收集 (garbage collection) 的 一 种 形 
~ 这 种 技术 在 编程 语言 中 出 现 ， 可 以 自动 为 程序 释放 未 使 用 的 内 
子 。 


之 前 我 们 讨论 过 的 段 很 重要 ， 因 为 它们 是 在 LFS$ 中 实现 对 磁盘 的 大 段 写 
入 的 机 制 。 事 实证 明 ， 它 们 也 是 有 效 清理 的 重要 组 成 部 分 。 想 象 一 
下 ， 如 果 LEFS 清 理 程序 在 清理 过 程 中 简单 地 通过 并 释放 单个 数据 块 ， 索 
引 节 点 等 ， 会 发 生 什么 。 结 果 : 文件 系统 在 磁盘 上 分 配 的 空间 之 间 混 
合 了 一 些 空 几 洞 (hole)〉 。 写 入 性 能 会 大 幅 下 降 ， 因 为 LFS 无 法 找到 一 
个 大 块 连续 区 域 ， 以 便 顺序 地 写 入 磁盘 ， 获 得 高 性 能 。 


实际 上 ，LFS 清 理 程序 按 段 工作 ， 从 而 为 后 续 写 入 清理 出 大 块 空 间 。 基 
本 清理 过 程 的 工作 原理 如 下 。LEFS 清 理 程 序 定期 读 入 许多 旧 的 《部 分 使 
用 的 ) 段 ， 确 定 哪些 块 在 这 些 段 中 存在 ， 然 后 写 出 一 组 新 的 段 ， 只 包 
含 其 中 活着 的 块 ， 从 而 释放 旧 块 用 于 写 入 。 有 具体 来 说 ， 我 们 预期 清理 
程序 读 取 W 外 现 有 段 ， 将 其 内 容 打 包 《〈compact) 到 AN 个 新 段 〈 其 中 w《 
4] ， 然 后 将 假 写 入 磁盘 的 新 位 置 。 然 后 释放 旧 的 4 外 ， 文 件 系统 可 以 
使 用 它们 进行 后 续 写 入 。 























但 是 ， 我 们 现在 有 两 个 问题 。 第 一 个 是 机 制 : LES 如 何 判断 段 内 的 哪些 
块 是 活 的 ， 哪 些 块 已 经 死 了 ? 第 二 个 是 策略 : 清理 程序 应 该 多 久 运 行 
一 次 ， 以 及 应 该 选择 清理 哪些 部 分 ? 


43. 10 ”确定 块 的 死活 


我 们 首先 关注 这 个 问题 。 给 定 人 磁盘 段 $ 内 的 数据 块 D，LFS 必 须 能 够 确定 
D 是 不 是 活 的 。 为 此 ，LFS 会 为 描述 每 个 块 的 每 个 段 添加 一 些 额外 信 
息 。 具 体 地 说 ， 对 于 每 个 数据 块 D，LFS 包 括 其 inode 号 ( 它 属于 哪个 文 
件 ) 及 其 偏 移 量 〈 这 是 该 文件 的 哪 一 块 ) 。 该 信息 记录 在 一 个 数据 结 
构 中 ， 位 于 段 头 部 ， 称 为 段 摘 要 块 (segment summary block) 。 


根据 这 些 信息 ， 可 以 直接 确定 块 的 死活 。 对 于 位 于 地 址 A 的 磁盘 上 的 块 
D， 碍 看 段 摘要 块 并 找到 其 inode 号 N 和 偏 移 量 T。 接 下 来 ， 碍 看 imap 以 
找到 N 所 在 的 位 置 ， 并 从 磁盘 读 取 N《〈 可 能 它 已 经 在 内 存 中 ， 这 更 
好 ) 。 最 后 ， 利 用 偏 移 量 T， 查 看 inode 〈 或 某 个 间接 块 ) ， 看 看 inode 
认为 此 文件 的 第 T 个 块 在 磁盘 上 的 位 置 。 如 果 它 刚好 指 加 磁盘 地 址 A， 
则 LFS 可 以 断定 块 D 是 活 的 。 如 果 它 指向 其 他 地 方 ，LFS 可 以 断定 D 未 被 
使 用 《〈 即 它 已 经 死 了 ) ， 因 此 知道 不 再 需要 该 版 本 。 下 面 的 伪 代 码 总 
结 了 这 个 过 程 : 

(N, T) = SegmentSummary [A] 

inode = Read (imap[N]); 

if (inode[T] == A) 

// block D is alive 


else 
// block D is garbage 














下 面 是 一 个 描述 机 制 的 图 ， 其 中 段 摘要 块 (标记 为 S$， 记录 了 地 址 A0 
处 的 数据 块 ， 实 际 上 是 文件 k 在 偏 移 0 处 的 部 分 。 通 过 检查 imap 的 k， 可 
以 找到 inode， 并 且 看 到 它 确 实 指向 该 位 置 。 











LFS 走 了 一 些 捷径 ， 可 以 更 有 效 地 确定 死活 。 例 如 ， 当 文件 被 截断 或 删 
除 时 ，LFS 会 增加 其 版 本 号 (version number) ， 并 在 imap 中 记录 新 版 





本 号 。 通 过 在 磁盘 上 的 段 中 记录 版 本 号 ，LFS 可 以 简单 地 通过 将 磁盘 版 
本 号 inap 中 的 版 本 号 进行 比较 ， 跃 过 上 迹 较 长 的 检查 ， 从 而 中 免 
9 读 取 。 


43. 11 策略 问题 : 要 清理 哪些 块 ， 何 时 清理 


在 上 述 机 制 的 基础 上 ，LFS 必 须 包 含 一 组 策略 ， 以 确定 何 时 清理 以 及 哪 
些 块 值得 清理 。 确 定 何 时 清理 比较 容易 。 要 么 是 周期 性 的 ， 要 么 是 空 
闲 时间， 要么 是 因为 磁盘 已 满 。 


确定 清理 哪些 块 更 具 挑 战 性 ， 并 且 已 成 为 许多 研究 论文 的 主题 。 在 最 
初 的 LFS 论 文 [R091] 中 ， 作 者 描述 了 一 种 试图 分 离 冷 热 段 的 方法 。 热 段 
是 经 常 履 盖 内 容 的 段 。 因 此 ， 对 于 这 样 的 段 ， 最 好 的 策略 是 在 清理 之 
前 等 待 很 长 时 间 ， 因 为 越 来 越 多 的 块 被 覆盖 〈 在 新 的 段 中 ) ， 从 而 被 
释放 以 供 使 用 。 相 比 之 下 ， 冷 段 可 能 有 一 些 死 块 ， 但 其 余 的 内 容 相 对 
稳定 。 因 此 ， 作 者 得 出 结论 ， 应 该 尽快 清理 冷 段 ， 延 迟 清理 热 段 ， 并 
开发 出 一 种 完全 符合 要 求 的 试探 算法 。 但 是 ， 与 大 多 数 政策 一 样 ， 这 
只 是 一 种 方法 ， 当 然 并 非 “ 最 佳 ” 方法 。 后 来 的 一 些 方法 展示 了 如 何 
做 得 更 好 [MR+97] 。 





43.12 ” 贿 江 恢复 和 日 志 


最 后 一 个 问题 ， 如 果 系 统 在 LFS 写 入 磁盘 时 崩 演 会 发 生 什 么 ”你 可 能 还 
记得 上 一 章 讲 的 日 志 ， 在 更 新 期 间 裔 溃 对 于 文件 系统 来 说 是 国手 的 ， 
因此 LFS 也 必须 考虑 这 些 问 题 。 


在 正常 操作 期 间 ，LFS 将 一 些 写 入 缓冲 在 段 中 ， 然 后 〈 当 段 已 满 或 经 过 
一 段 时 间 后 ) ， 将 段 写 入 磁盘 。LFS 在 日 志 (log) 中 组 织 这 些 写 入 ， 
即 指向 头 部 段 和 尾部 段 的 检查 点 区 域 ， 并 且 每 个 段 指向 要 写 入 的 下 一 
个 段 。LFS 还 定期 更 新 检查 点 区 域 (CR) 。 在 这 些 操作 期 间 都 可 能 发 生 
骨 溃 〈 写 入 段 ， 写 入 CR) 。 那 么 LFS 在 写 入 这 些 结构 时 如 何 处 理 裔 溃 ? 


我 们 先 介绍 第 二 种 情况 。 为 了 确保 CR 更 新 以 原子 方式 发 生 ，LFS 实 际 上 
保留 了 两 个 CR， 每 个 位 于 磁盘 的 一 端 ， 并 交 蔡 写 入 它们 。 当 使 用 了 最 新 
的 指向 inode 上 映射 和 其 他 信息 的 指针 更 新 CR 时 ，LFS 还 实现 了 一 个 谨慎 
的 协议 。 有 具体 来 说 ， 它 首先 写 出 一 个 头 〈 带 有 时 间 戳 ) ， 然 后 写 出 CR 
的 主体 ， 然 后 最 后 写 出 最 后 一 部 分 〈 也 融 有 时 间 戳 ) 。 如 果 系 统 在 CR 
更 新 期 间 导 误 ，LFS 可 以 通过 查看 一 对 不 一 致 的 时 间 惟 来 检测 到 这 一 
点 。LFS 将 始终 选择 使 用 具有 一 致 时 间 戳 的 最 新 CR， 从 而 实现 CR 的 一 致 


YI o 


我 们 现在 关注 第 一 种 情况 。 由 于 LFS 每 隔 30s 左 右 写 入 一 次 CR， 因 此 文 
件 系统 的 最 后 一 致 快照 可 能 很 上 日。 因此 ， 在 重新 局 动 时 ，LFS 可 以 通过 
简单 地 读 取 检查 点 区 域 、 它 指向 的 imap 片 段 以 及 后 续 文 件 和 目录 ， 从 
而 轻松 地 恢复 。 但 是 ， 最 后 许多 秒 的 更 新 将 会 丢失 。 


为 了 改进 这 一 点 ，LFS 尝 试 通过 数据 库 社区 中 称 为 前 滚 (roll 
forward) 的 技术 ， 重 建 其 中 许多 段 。 基 本 思想 是 从 最 后 一 个 检查 点 区 
域 开 始 ， 找 到 日 志 的 结尾 〈 包 含 在 CR 中 ) ， 然 后 使 用 它 来 读 取 下 一 个 
段 ， 并 查看 其 中 是 否 有 任何 有 效 更 新 。 如 果 有 ，LFS 会 相应 地 更 新 文件 
系统 ， 从 而 恢复 自 上 一 个 检查 点 以 来 写 入 的 大 部 分 数据 和 元 数据 。 有 
关 详 细 信 息 ， 请 参阅 Rosenblum 获 奖 论文 [R92]。 












































43. 13 ”小结 


LFS 引 入 了 一 种 更 新 磁盘 的 新 方法 。LFS 总 是 写 入 磁盘 的 未 使 用 部 分 ， 
然后 通过 清理 回收 旧 空 间 ， 而 不 是 在 原来 的 位 置 履 新 文件 。 这 种 方法 
在 数据 库 系 统 中 称 为 影子 分 页 (shadow paging) [L77] ， 在 文件 系统 
中 有 时 称 为 写 时 复制 (copy-on-write) ， 可 以 实现 高 效 写 入 ， 因 为 
LFS 可 以 将 所 有 更 新 收集 到 内 存 的 段 中 ， 然 后 按 顺 序 一 起 写 入 。 


这 种 方法 的 缺点 是 它 会 产生 垃圾 。 旧 数据 的 副本 分 散在 整个 磁盘 中 ， 
如 果 想 要 为 后 续 使 用 回收 这 样 的 空间 ， 则 必须 定期 清理 旧 的 数据 段 。 
清理 成 为 LFS 争 议 的 焦点 ， 对 清理 成 本 的 担忧 [SS+95] 可 能 限制 了 LFS 开 
人 对 该 领域 的 影响 。 然 而 ， 一 些 现代 商业 文件 系统 ， 包 括 NetApp 的 
WAFL [HLM94] 、Sun 的 ZFS [B07] 和 Linux btrfs [M07] ， 采 用 了 类 似 的 
写 时 复制 方法 来 写 入 磁盘 ， 因 此 LFS 的 知识 遗产 继续 存在 于 这 些 现代 文 
件 系 统 中 。 特 别 是 ，WAFL 通 过 将 清理 问题 转化 为 特征 来 解决 问题 。 通 
过 快照 (snapshots) 提供 旧版 本 的 文件 系统 ， 用 户 可 以 在 意外 删除 当 
前 文件 时 ， 访 问 到 旧 文 件 。 














提示 : 将 缺点 变 成 美德 


每 当 你 的 系统 存在 根本 缺点 时 ， 请 看 看 是 否 可 以 将 它 转换 为 
特征 或 有 用 的 功能 。NetApp 的 WAFL 对 旧 文 件 内 容 做 到 了 这 一 
扩 。 通 过 提供 旧版 本 ，WAFL 不 再 需要 担心 清理 ， 还 因此 提供 
了 一 个 很 酷 的 功能 ， 在 一 个 美妙 的 转折 中 消除 了 LFS 的 清理 问 
题 。 系 统 中 还 有 其 他 这 样 的 例子 吗 ? 军 无 疑问 还 有 ， 但 你 必 
须 目 己 去 思考 ， 因 为 本 章 的 内 容 已 经 结束 了 。 
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关于 ZFS 的 幻灯 片 。 遗 憾 的 是 ， 没 有 优秀 的 ZFS 论 文 。 
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在 该 文中 ，Mogul 戊 现 ， 因 为 缓冲 写 入 时 间 过 长 ， 然 后 集中 发 送 到 磁盘 
中 ， 读 取 工 作 负 载 可 能 会 受到 影响 。 因 此 ， 他 建议 更 频繁 地 以 较 小 的 
批 次 发 送 写 入 。 


[P98] “Hardware Technology Trends and Database 
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ACM SIGMOD ”98 Keynote Address, Presented June 3, 1998， 
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关于 计算 机 系统 技术 趋势 的 一 系列 幻灯 片 。 也 许 Patterson 很 快 就 会 制 
作为 一 个 和 人 J 


[RO91] “Design and Implementation of the Log-structured File 
System” Mendel Rosenblum and John Ousterhout 


SOSP ” 91, Pacific Grove, CA, October 1991 


0 已 被 数 百 篇 其 他 论文 引用 ， 并 启发 了 许多 真 
居 条 乡 O 


[R92] “Design and Implementation of the Log-structured File 
System” Mendel Rosenblum 


关于 LFS 的 获奖 学 位 论文 ， 包含 其 他 论文 中 缺失 的 许多 细节 。 





[SS+95] “File system logging versus clustering: a performance 
comparison” 


Margo Seltzer, Keith A. Smith, Hari Balakrishnan, Jacqueline 
Chang, Sara McMains, Venkata Padmanabhan 


USENIX 1995 Technical Conference, New Orleans, Louisiana, 
1995 


该 文 显示 LFS 的 性 能 有 时 会 出 现 问题 ， 特 别 是 对 于 多 次 调用 fsync 0 的 
工作 负载 〈 例 如 数据 库 工 作 负 载 ) 。 该 论文 当时 备 受 争议 。 


[S090] “Write-Only Disk Caches” Jon A. Solworth, Cyril U. 
Orji 


SIGMOD ” 90, Atlantic City, New Jersey, May 1990 


对 写 缓冲 及 其 好 处 的 早期 研究 。 但 是 ， 缓 冲 太 长 时 间 可 能 会 产生 人 危 
害 ， 详 情 请 参阅 Mogul [M94]。 


[Z+12|] “De-indirection for Flash-based SSDs with Nameless 
Writes” 


Yiying Zhang, Leo Prasath Arulraj, Andrea C. Arpaci-~Dusseau, 
Remzi H. Arpaci-Dusseau FAST ” 13, San Jose, California, 
February 2013 


我 们 的 论文 介绍 了 构建 基于 内 存 的 存储 设备 的 新 方法 。 由 于 FTL (闪存 
转换 层 ) 通常 以 日 志 结 构 样 式 构建 ， 因 此 在 基于 闪存 的 设备 中 会 出 现 
一 些 LFS 中 相同 的 问题 。 在 这 个 例子 中 ， 它 是 递归 更 新 问题 ，LFS 用 
imap 巧 妙 地 解决 了 这 个 问题 。 大 多 数 SSD 中 存在 类 似 的 结构 。 











[1]， 实 际 上 ， 很 难 找 到 关于 这 个 想法 的 好 引用 ， 因 为 它 很 可 能 是 很 多 
人 在 计算 史 早 期 发 明 的 。 有 关 写 入 缓冲 的 好 处 的 研究 ， 请 参阅 
Solworth 和 0rji [LS090] 。 要 了 解 它 的 潜在 危害 ， 请 参阅 Mogul 
[M94]。 





第 44 章 ”数据 完整 性 和 保护 





除了 我 们 运 今 为 止 研究 的 文件 系统 中 的 基本 进展 ， 还 有 许多 功能 值得 
研究 。 本 章 将 再 次 关注 可 靠 性 〈 之 前 在 RAID 章 节 中 ， 已 经 研究 过 存储 
系统 的 可 靠 性 ) 。 有 具体 来 说 ， 鉴 于 现代 存储 设备 的 不 可 靠 性 ， 文 件 系 
统 或 存储 系统 应 如 何 确保 数据 安全 ? 


该 一 般 领 域 称 为 数据 完整 性 (data integrity) 或 数据 保护 (data 
ptrotection) 。 因 此 ， 我 们 现在 将 研究 一 些 技术 ， 确 保 放 入 存储 系统 
的 数据 束 是 存储 系统 返回 的 数据 。 





关键 问题 : 如何 确保 数据 完整 性 


系统 应 如 何 确保 写 入 存储 的 数据 受到 保护 ? 需要 什么 技术 ? 
如 何在 低空 间 和 时 间 开 销 的 情况 下 提高 这 些 技术 的 效率 ? 





44.1 磁盘 故障 模式 


正如 你 在 关于 RAID 的 章节 中 所 了 解 到 的 ， 破 盘 并 不 完美 ， 并 且 可 能 会 
发 生 故 障 〈 有 时 ) 。 在 早期 的 RAID 系 统 中 ， 故 障 模型 非常 简单 : 要 么 
整个 磁盘 都 在 工作 ， 要 么 完全 失败 ， 而 且 检测 到 这 种 故障 很 简单 。 这 
种 磁盘 故障 的 故障 一 停止 (fail-stop) 模型 使 构建 RAID 相 对 简单 
[S90]。 


你 不 知道 的 是 现代 磁盘 展示 的 所 有 其 他 类 型 的 故障 模式 。 具 体 来 说 ， 
正如 Bairavasundaram 等 人 的 详细 研究 [B+07，B+08] ， 现 代 磁 盘 似 乎 大 
部 分 时 间 正 常 工作 ， 但 是 无 法 成 功 访问 一 个 或 几 个 块 。 具 体 来 说 ， 两 
种 类 型 的 单 块 故障 是 常见 的 ， 值 得 考虑 : 潜在 局 区 错误 (Latent- 





Sector Errors，LSE)〉 和 块 率 误 (block corruption) 。 接 下 来 分 别 
详细 地 讨论 。 


当 磁 盘 扇 区 〈 或 忆 区 组 ) 以 某 种 方式 率 误 时 ， 会 出 现 LSE。 例 如 ， 如 果 
磁头 由 于 某 种 原因 接触 到 表面 〈 破 头 磁 撞 ，head crash， 在 正常 操作 
期 间 不 应 发 生 的 情况 )， 则 可 能 会 率 误 表面 ， 使 得 数据 位 不 可 读 。 宇 
宙 射 线 也 会 导致 数据 位 翻转 ， 使 内 容 不 正确 。 和 幸运 的 是 ， 驱 动 右 使 用 
磁盘 内 纠 错 码 (Error Correcting Code，ECC) 来 确定 块 中 的 磁盘 位 
是 否 良 好 ， 并 且 在 某 些 情 况 下 ， 修 复 它们 。 如 果 它 们 不 好 ， 并 且 驱 动 
0 则 在 发 出 请 求 读 取 它们 时 ， 人 磁盘 会 返 
回 错误 。 


还 存在 一 些 情况 ， 人 磁盘 块 出 现 率 误 (corrupt ) ， 但 磁盘 本 身 无 法 检测 
到 。 例 如 ， 有 缺陷 的 磁盘 固件 可 能 会 将 块 写 入 错误 的 位 置 。 在 这 种 情 
况 下 ， 破 盘 ECC 指 示 块 内 容 很 好 ， 但 是 从 客户 端的 角度 来 看 ， 在 随后 访 
问 时 返回 错误 的 块 。 类 似 地 ， 当 一 个 块 通过 有 故障 的 总 线 从 主机 传输 
到 磁盘 时 ， 它 可 能 会 和 误 。 由 此 产生 的 论 误 数据 会 存 入 和 磁盘， 但 它 不 
是 客户 所 希望 的 。 这 些 类 型 的 故障 特别 隐蔽 ， 因 为 它们 是 无 声 的 故障 
(silent fault) 。 返 回 故障 数据 时 ， 磁 盘 没 有 报告 问题 。 


Prabhakaran 等 人 将 这 种 更 现代 的 磁 各 故障 视图 描述 为 故障 一 部 分 
(fail-partial ) 磁盘 故障 模型 [P+05] 。 在 此 视图 中 ， 磁 竹 仍 然 可 以 
完全 失败 〈 像 传统 的 故障 停止 模型 中 的 情况 ) 。 然 而 ， 人 磁盘 也 可 以 似 
乎 正常 工作 ， 并 有 一 个 或 多 个 块 变 得 不 可 访问 〈 即 LSE) 或 保存 了 错误 
的 内 容 〈 即 率 误 ) 。 因 此 ， 当 访问 看 似 工 作 的 磁盘 时 ， 偶 尔 会 在 尝试 
读 取 或 写 入 给 定 块 时 返回 错误 “〈 非 无 声 的 部 分 故障 ) ， 侦 尔 可 能 只 是 
返回 错误 的 数据 (一 个 无 声 的 部 分 错误 ) 。 


这 两 种 类 型 的 故障 都 有 点 罕见 ， 但 有 多 罕见 ? 表 44.1 总 结 了 
Baifavasundaram 的 两 项 研究 [B+07，B+08] 的 一 些 结 果 。 


项 目 | 
LSEs ||9. 40% ||1. 40% 


| | 




















表 44. 1 LSE 和 块 就 误 的 频率 














论 误 “|0.50% |i0. 05% 


该 表 显 示 了 在 研究 过 程 中 至 少 出 现 一 次 LSE 或 块 应 误 的 驱动 器 百分比 
(大 约 3 年 ， 超 过 150 万 个 磁盘 驱动 器 ) 。 该 表 进 一 步 将 结果 细 分 为 
“廉价 ”驱动 器 (通常 为 SATA 驱 动 嚣 ) 和 “昂贵 ”驱动 器 (通常 为 
SCSI 或 FibreChannel) 。 如 你 所 见 ， 虽 然 购买 更 好 的 驱动 器 可 以 减少 
两 种 类 型 问题 的 频率 (大 约 一 个 数量 级 ) ， 但 它们 的 发 生 频 率 仍 然 足 
够 高 ， 你 需要 仔细 考虑 如 何在 存储 系统 中 处 理 它们 。 


关于 LSE 的 一 些 其 他 发 现 如 下 : 








具有 多 个 LSE 的 昂贵 驱动 器 可 能 会 像 廉价 驱动 右 一 样 产生 附加 错 


| 天。 

对 于 大 多 数 驱 动 器 ， 第 二 年 的 年 度 错误 率 会 增加 。 
LSE 随 磁盘 大 小 增加 。 

大 多 数 磁盘 的 LSE 少 于 50 个 。 

具有 LSE 的 磁盘 更 有 可 能 发 生 新 增 的 LSE。 

。 存 在 显著 的 空间 和 时 间 局 部 性 。 

。 倒 盘 清理 很 有 用 《〈 大 多 数 LSE 都 是 这 样 找 到 的 ) 。 


天 于 论 误 的 一 些 发 现 如 下 : 





同一 驱动 器 类 别 中 不 同 驱 动 器 型 号 的 论 误 机 会 差异 很 大 。 
老化 效应 因 型 号 而 腊 。 

工作 负载 和 磁盘 大 小 对 论 误 几乎 没有 影响 。 

大 多 数 具有 论 误 的 磁盘 只 有 少数 论 误 。 

论 误 不 是 与 一 个 磁盘 或 RAID 中 的 多 个 磁盘 无 关 的 。 

存在 空间 局 部 性 和 一 些 时 间 局 部 性 。 

与 LSE 的 相关 性 较 弱 。 


要 了 解 有 关 这 些 故障 的 更 多 信息 ， 应 该 阅读 原始 论文 L[B+07，B+08] 。 
但 主要 观点 应 该 已 经 明确 : 如 果真 的 希望 建立 一 个 可 靠 的 存储 系统 ， 
必须 包括 一 些 机 制 来 检测 和 恢复 LSE 并 阻止 认 误 。 





44.2 处理 潜 在 的 扇 区 错误 


鉴于 这 两 种 新 的 部 分 磁盘 故障 模式 ， 我 们 现在 应 该 尝试 看 看 可 以 对 它 
们 做 些 什么 。 让 我 们 首先 解决 两 者 中 较为 容易 的 问题 ， 即 淤 在 的 而 区 


普 误 。 


关键 问题 : 如 何 处 理 潜在 的 扇 区 错误 


存储 系统 应 该 如 何 处 理 潜在 的 扇 区 错误 ? 需要 多 少 额外 的 机 
制 来 处 理 这 种 形式 的 部 分 故障 ? 








事实 证 明 ， 潜 在 的 届 区 错误 很 容易 处 理 ， 因 为 它们 (根据 定义 ) 很 容 
易 被 检测 到 。 当 存储 系统 尝试 访问 块 ， 并 且 磁 盘 返 回 错 误 时 ， 存 储 系 
统 应 该 就 用 它 具 有 的 任何 元 余 机 制 ， 来 返回 正确 的 数据 。 例 如 ， 在 镜 
像 RAID 中 ， 系 统 应 该 访问 备用 副本 。 在 基于 奇偶 校 验 的 RAID-4 或 RAID- 
5 系统 中 ， 系 统 应 通过 奇偶 校 验 组 中 的 其 他 块 重建 该 块 。 因 此 ， 利 用 标 
准 元 余 机 制 ， 可 以 容易 地 恢复 诸如 LSE 这 样 的 容易 检测 到 的 问题 。 


多 年 来 ，LSE 的 日 益 增 长 影响 了 RAID 设 计 。 当 全 盘 故 障 和 LSE 接 连 发 生 
时 ，RAID-4/5 系 统 会 出 现 一 个 特别 有 趣 的 问题 。 具 体 来 说 ， 当 整个 人 磁 
盘 发 生 故 障 时 ，RAID 会 尝试 读 取 奇偶 校 验 组 中 的 所 有 其 他 和 磁盘， 并 重 
新 计算 缺失 值 ， 来 重建 (reconstruct) 磁盘 (例如 ， 在 热 备用 磁盘 
上 ) 。 如 果 在 重建 期 间 ， 在 任何 一 个 其 他 磁盘 上 遇 到 LSE， 我 们 就 会 遇 
到 问题 : 重建 无 法 成 功 完成 。 


为 了 解决 这 个 问题 ， 一 些 系统 增加 了 额外 的 元 余 度 。 例 如 ，NetApp 的 
RAID-DP 相 当 于 两 个 奇偶 校 验 磁盘 ， 而 不 是 一 个 LC+04] 。 在 重建 期 间 发 
现 LSE 时 ， 额 外 的 校 验 盘 有 助 于 重建 丢失 的 块 。 与 往常 一 样 ， 这 有 成 
本 ， 因 为 为 每 个 条 带 维 护 两 个 奇偶 校 验 块 的 成 本 更 高 。 但 是 ，NetApp 
WAFL 文 件 系 统 的 日 志 结 构 特 性 在 许多 情况 下 降低 了 成 本 [HLM94] 。 男 外 
的 成 本 是 空间 ， 需 要 额外 的 磁盘 来 存放 第 二 个 奇偶 校 验 块 。 























44.3 ”检测 认 误 : 校 验 和 


现在 让 我 们 解决 更 具 挑 战 性 的 问题 ， 即 数据 诡 误 导致 的 无 声 故 障 。 在 
出 现 论 误 导致 磁盘 返回 错误 数据 时 ， 如 何 阻止 用 户 获 取 错 误 数 据 ? 


关键 问题 : 尽管 有 论 误 ， 如 何 保护 数据 完整 性 


鉴于 此 类 故障 的 无 声 性 ， 存 储 系统 可 以 做 些 什么 来 检测 何 时 
出 现 话 误 ? 需要 什么 技术 ?如 何 有 效 地 实现 ? 





与 潜在 的 而 区 错误 不 同 ， 检 测 诡 误 是 一 个 关键 问题 。 客 户 如 何 判断 一 
个 块 坏 了 ? 一 旦 知道 特定 块 是 坏 的 ， 恢 复 就 像 以 前 一 样 ， 你 需要 有 该 
0 


现代 存储 系统 用 于 保持 数据 完整 性 的 主要 机 制 称 为 校 验 和 
(checksum) 。 校 验 和 就 是 一 个 函数 的 结果 ， 访 函数 以 一 块 数据 《〈 例 
如 4KB 块 ) 作为 输入 ， 并 计算 这 段 数据 的 函数 ， 产 生 数 据 内 容 的 小 概要 
(比如 4 字 节 或 8 字 节 ) 。 此 摘要 称 为 校 验 和 。 这 种 计算 的 目的 在 于 ， 
让 系统 将 校 验 和 与 数据 一 起 存储 ， 然 后 在 访问 时 确认 数据 的 当前 校 验 
和 与 原始 存储 值 史 配 ， 从 而 检测 数据 是 否 以 某 种 方式 被 破坏 或 改变 。 


提示 : 没有 免费 午餐 


没有 免费 午餐 这 种 事 ， 或 简称 TNSTAAFL， 是 一 句 古 老 的 美国 
谚语 ， 暗 示 当 你 似乎 在 免费 获得 某 些 东 西 时 ， 实 际 上 你 可 能 
会 付出 一 些 代 价 。 以 前 ， 和 餐馆 会 向 顾客 宣传 免费 午餐 ,希望 
能 吸引 他 们 。 只 有 当 你 进去 时 ， 才 会 意识 到 要 获得 “人 免费” 
午餐 ， 必 须 购买 一 种 或 多 种 含 酒精 的 饮料 。 

















常见 的 校 验 和 函数 





许多 不 同 的 函数 用 于 计算 校 验 和 ， 并 且 强 度 〈 即 它们 在 保护 数据 完整 
性 方面 有 多 好 ) 和 速度 〈 即 它们 能 够 以 多 快 的 速度 计算 ) 不 同 。 系 统 
中 常见 的 权衡 取决 于 此 : 通常 ， 你 获得 的 保护 越 多 ， 成 本 就 越 高 。 没 
有 免费 午餐 这 种 事 。 

有 人 使 用 一 个 简单 的 校 验 和 函数 ， 它 基于 异 或 〈XOR) 。 使 用 基于 XOR 


的 校 验 和 ， 只 需 对 需要 校 验 和 的 数据 块 的 每 个 块 进行 异 或 运算 ， 从 而 
生成 一 个 值 ， 表 示 整 个 块 的 XOR。 


为 了 使 这 更 具体 ， 想 象 一 下 在 一 个 16 字 节 的 块 上 计算 一 个 4 字 节 的 校 验 
和 【这 个 块 当然 太 小 而 不 是 真正 的 磁盘 悄 区 或 块 ， 但 它 将 用 作 示 
例 ) 。 十 六 进 制 的 16 个 数据 字 节 如 下 所 示 : 


365e c4cd bal4 8a92 ecef 2c3a 40be f666 








如 果 以 二 进 制 形式 查看 它们 ， 会 看 到 : 


0011 0110 0101 1110 1100 0100 1100 1101 
1011 1010 0001 0100 1000 1010 1001 0010 
1110 T1000 .1110, 1111 O010 T1100 0011 -1010 
0100 0000 1011 1110 BE ‘QTEOQNOL LO .0k0 


因为 我 们 以 每 行 4 个 字 节 为 一 组 排列 数据 ， 所 以 很 容易 看 出 生成 的 校 验 
和 是 什么 。 只 需 对 每 列 执行 XOR 以 获得 最 终 的 校 验 和 值 : 


0010 0000 0001 1011 1001 0100 0000 0011 


十 六 进 制 的 结果 是 0x201b9403。 


XOR 是 一 个 合理 的 校 验 和 ， 但 有 其 局 限 性 。 例 如 ， 如 果 每 个 校 验 和 单元 
内 相同 位 置 的 两 个 位 发 生变 化 ， 则 校 验 和 将 不 会 检测 到 褒 误 。 出 于 这 
个 原因 ， 人 们 研究 了 其 他 校 验 和 函数 。 


另 一 个 简单 的 校 验 和 函数 是 加 法 。 这 种 方法 具有 快速 的 优点 。 计 算 它 
只 需要 在 每 个 数据 块 上 执行 二 进 制 补 码 加 法 ， 忽 略 溢出 。 它 可 以 检测 
到 数据 中 的 许多 变化 ， 但 如 果 数 据 和 被 移 位 ， 则 不 好 。 


稍微 复杂 的 算法 被 称 为 Fletcher 校 验 和 (Fletcher checksum) ， 命 名 
基于 (你 可 能 会 猪 到 ) 发 明 人 John G，Fletcher [F82] 。 它 非常 简 











单 ， 涉 及 两 个 校 验 字 节 s1 和 s2 的 计算 。 有 具体 来 说 ， 假 设 块 D 由 字 节 dl， 
…，dn 组 成 。s1 简 单 地 定义 如 下 : sl = sl + di mod 255 (在 所 有 di 
上 上 计算) 。s2 依 次 为 : s2 = s2 + sl mod 255 (同样 在 所 有 di 上) 
[F04] 。 已 知 fletcher 校 验 和 几乎 与 CRC (下 面 描 述 ) 一 样 强 ， 可 以 检 
测 所 有 单 比 特 错 误 ， 所 有 双 比 特 错误 和 大 部 分 突 发 错误 [F04] 。 


最 后 第 用 的 校 验 和 称 为 循环 见 余 校 验 (CRC) 。 虽 然 听 起 来 很 奇特 ， 但 
基本 想法 很 简单 。 假 设 你 希望 计算 数据 块 D 的 校 验 和 。 你 所 做 的 只 是 将 
D 视 为 一 个 大 的 二 进 制 数 《〈 毕 竟 它 只 是 一 串 位 ) 并 将 其 除 以 约定 的 值 
(k) 。 该 除法 的 其 余部 分 是 CRC 的 值 。 事 实证 明 ， 人 们 可 以 相当 有 效 
地 实现 这 种 二 进 制 模 运 算 ， 因 此 也 可 以 在 网 络 中 普及 CRC。 有 关 详 细 信 
忠 ， 请 参见 其 他 资料 [M13]。 


无 论 使 用 何 种 方法 ， 很 明显 没有 完美 的 校 验 和 : 两 个 具有 不 相同 内 容 
的 数据 块 可 能 具有 相同 的 校 验 和 ， 这 被 称 为 碰撞 (collision) 。 这 个 
事实 应 该 是 直观 的 : 毕竟 ， 计 算 校 验 和 会 使 某 种 很 大 的 东西 “例如 ， 
4KB) 产生 很 小 的 摘要 (例如 ，4 或 8 个 字 节 ) 。 在 选择 良好 的 校 验 和 函 
Tn 
伴 撞 机 会 。 














校 验 和 布局 


既然 你 已 经 了 解 了 如 何 计算 校 验 和 ， 接 下 来 就 分 析 如 何在 存储 系统 中 
使 用 校 验 和 。 我 们 必须 解决 的 第 一 个 问题 是 校 验 和 的 布局 ， 即 如 何 将 
校 验 和 存储 在 磁盘 上 ? 








最 基本 的 方法 就 是 为 每 个 磁盘 书 区 《或 块 ) 存储 校 验 和 。 给 定数 据 块 
人 
下 所 示 : 





有 了 校 验 和 ， 布 局 为 每 个 块 添加 一 个 校 验 和 : 





因为 校 验 和 通常 很 小 (例如 ，8 字 市 ) ， 并 且 磁 担 只 能 以 局 区 大 小 的 块 
6512 字 节 ) 或 其 倍数 写 入 ， 所 以 出 现 的 一 个 问题 是 如 何 实现 上 述 布 
局 。 驱 动 占 制造 商 采 用 的 一 种 解决 方案 是 使 用 520 字 节 局 区 格式 化 驱动 
局 ， 每 个 山区 额外 的 8 个 字 节 可 用 于 存储 校 验 和 。 


在 没有 此 类 功能 的 磁盘 中 ， 文 件 系统 必须 找到 一 种 方法 来 将 打包 的 校 
验 和 存储 到 512 字 节 的 块 中 。 一 种 可 能 性 如 下 : 














在 该 方案 中 ， 
着 是 后 z 块 的 另 一 个 校 验 和 扇 区 ， 依 此 类 推 。 该 方案 具有 在 所 有 磁盘 上 
工作 的 优点 ， 但 效率 较 低 。 例 如 ， 如 果 文件 系统 想 要 覆盖 块 D1， 它 必 
须 读 入 包含 C (D1) 的 校 验 和 扇 区 ， 更 新 其 中 的 C (D1)〉， 然 后 写 出 校 
验 和 肩 区 以 及 新 的 数据 块 D1 (因此 ， 一 次 读 取 和 两 次 写 入 ) 。 前 面 的 
方法 〈 每 个 肩 区 一 个 校 验 和 ) 只 执行 一 次 写 操作 。 





44.4 使 用 校 验 和 





在 确定 了 校 验 和 布局 后 ， 现 在 可 以 实际 了 解 如 何 使 用 校 验 和 。 读 取 块 D 
时 ， 客 户 端 〈 即 文件 系统 或 存储 控制 器 ) 也 从 磁盘 Cs (D) 读 取 其 校 验 
和 ， 这 称 为 存储 的 校 验 和 (stored checksum， 因 此 有 下 标 Cs) 。 然 


后 ， 客 户 端 计算 读 取 的 块 D 上 的 校 验 和 ， 这 称 为 计算 的 校 验 和 
(computed checksum) Cec (D) 。 此 时 ， 客 户 端 比较 存储 和 计算 的 校 
验 和 。 如 果 它 们 相等 [ 即 Cs (D) == Ce (D) ]， 数 据 很 可 能 没有 被 破 
坏 ， 因 此 可 以 安全 地 返回 给 用 户 。 如 果 它 们 不 匹配 [ 即 Cs (D) != 
Cc (D) ]， 则 表示 数据 目 存 储 之 后 已 经 改变 〈 因 为 存储 的 校 验 和 反映 
。 在 这 种 情况 下 ， 存 在 论 误 ， 校 验 和 帮助 我 们 检测 
到 了 。 


发 现 了 旋 误 ， 和 上 自然 的 问题 是 我 们 应 该 怎么 做 昵 ? 如 果 存 储 系统 有 元 余 
副本 ， 答 案 很 简单 : 尝试 使 用 它 。 如 果 存 储 系统 没有 此 类 副本 ， 则 可 
能 的 答案 是 返回 错误 。 在 任何 一 种 情况 下 ， 都 要 意识 到 褒 误 检测 不 是 
神奇 的 子弹 。 如 采 没 有 其 他 方法 来 获取 没有 论 误 的 数据 ， 那 你 就 个 走 
人 


运 了 。 














44.5 一 个 新 问题 ， 错误 的 写 入 


上 述 基 本 方案 对 一 般 情况 的 庆 误 块 工作 民 好 。 但 是 ， 现 代 磁 盘 有 几 种 
不 同 的 故障 模式 ， 需 要 不 同 的 解决 方案 。 


第 一 种 感 兴趣 的 失败 模式 称 为 “错误 位 置 的 写 入 〈misdirected 
write) ”。 这 出 现在 磁盘 和 RAID 控 制 磺 中 ， 它 们 正确 地 将 数据 写 入 磁 
盘 ， 但 位 置 错 误 。 在 单 磁盘 系统 中 ， 这 意味 着 磁盘 写 入 块 Dx 不 是 在 地 
址 x《〈 像 期 望 那样 ) ， 而 是 在 地 址 y《〈 因 此 是 “ 褒 误 的 ”Dy) 。 为 外 ， 
在 多 磁盘 系统 中 ， 控 制 器 也 可 能 将 Di，x 不 是 写 入 磁盘 i 的 x， 而 是 写 入 
另 一 磁盘 j。 因 此 问题 是 : 


关键 问题 : 如何 处 理 错误 的 写 入 


存储 系统 或 磁盘 控制 器 应 该 如 何 检测 错误 位 置 的 号 入 ? 校 验 
和 需要 哪些 附加 功能 ? 


毫 不 奇怪 ， 答 案 很 简单 :在 每 个 校 验 和 中 添加 更 多 信息 。 在 这 种 情况 
下 ， 添 加 物理 标识 符 (Physical Identifier， 物 理 ID) 非常 有 用 。 例 
如 ， 如 果 存 储 的 信息 现在 包含 校 验 和 C (D) 以 及 块 的 磁盘 和 扇 区 号 ， 
则 客户 端 很 容易 确定 块 内 是 否 存在 正确 的 信息 。 有 具体 来 说 ， 如 果 客 户 
端正 在 读 取 磁盘 10 上 的 块 4 (Dio 4) ， 则 存储 的 信息 应 包括 该 磁盘 号 和 
扇 区 偏 移 量 ， 如 下 所 示 。 如 果 信 息 不 匹配 ， 则 发 生 了 错误 位 置 写 入 ， 
并 且 现 在 检测 到 论 误 。 以 下 是 在 双 磁 盘 系 统 上 添加 此 信息 的 示例 。 注 
意 ， 该 图 与 之 前 的 其 他 图 一 样 ， 不 是 按 比例 绘制 的 ， 因 为 校 验 和 通常 
很 小 (例如 ，8 个 字 节 ) ， 而 块 则 要 大 得 多 (例如 ，4KB 或 更 大 ) : 














Disk | 


Disk 0 





可 以 从 磁盘 格式 看 到 ， 磁 盘 上 现在 有 相当 多 的 见 余 : 对 于 每 个 块 ， 磁 
盘 编号 在 每 个 块 中 重复 ， 并 且 相 关 块 的 偶 移 量 也 保留 在 块 本 身 劳 边 。 
但 是 ， 匈 余 信息 的 存在 应 该 是 不 奇怪 。 见 余 是 错误 检测 在 这 种 情况 
下 ) 和 恢复 〈 在 其 他 情况 下 ) 的 关键 。 一 些 额 外 的 信息 虽然 不 是 完美 
磁盘 所 必需 的 ， 但 可 以 帮助 检测 出 现 问题 的 情况 。 











44.6 最 后 一 个 问题 : 丢失 的 写 入 


遗憾 的 是 ， 错 误 位 置 的 写 入 并 不 是 我 们 要 解决 的 最 后 一 个 问题 。 有 具体 
来 说 ,一 些 现代 存储 设备 还 有 一 个 问题 ， 称 为 丢失 的 写 入 (lost 
write) 。 当 设备 通知 上 层 写 入 已 完成 ， 但 事实 上 它 从 未 持久 ， 就 会 发 





生 这 种 问题 。 因 此 ， 磁 将 上 甸 下 的 是 该 块 的 旧 内 容 ， 而 不 是 更 新 的 新 





这 里 显而易见 的 问题 是 : 上 面 做 的 所 有 校 验 和 策略 〈 例 如， 基本 校 验 
和 或 物理 ID) ， 是 否 有 助 于 检测 丢失 的 写 入 ? 遗憾 的 是 ， 答 案 是 否定 
的 : 旧 块 很 可 能 具有 匹配 的 校 验 和 ， 上 面 使 用 的 物理 ID (磁盘 号 和 块 
偏 移 ) 也 是 正确 的 。 因 此 我 们 最 后 的 问题 : 





关键 问题 : 如何 处 理 丢 失 的 写 入 


存储 系统 或 磁盘 控制 右 应 如 何 检测 丢失 的 写 入 ? 校 验 和 需要 
哪些 附加 功能 ? 


有 许多 可 能 的 解决 方案 有 助 于 解决 该 问题 [K+08] 。 一 种 经 典 方法 
[BS04] 是 执行 写 入 验证 (write verify) ， 或 写 入 后 读 取 (read- 
after-write) 。 通 过 在 写 入 后 立即 读 回 数据 ， 系 统 可 以 确保 数据 确实 
9 


某 些 系统 在 系统 的 其 他 位 置 添加 校 验 和 ， 以 检测 丢失 的 写 入 。 例 如 ， 
Sun 的 Zettabyte 文 件 系 统 (ZFS) 在 文件 系统 的 每 个 inode 和 间接 块 
中 ， 包 含 文件 中 每 个 块 的 校 验 和 。 因 此 ， 即 使 对 数据 块 本 身 的 写 入 于 
失 ，inode 内 的 校 验 和 也 不 会 与 旧 数 据 匹 配 。 只 有 当 同 时 丢失 对 inode 
和 数据 的 写 入 时 ， 这 样 的 方案 才 会 失败 ， 这 是 不 太 可 能 的 情况 (但 也 
有 可 能 发 生 ! ) 。 

















44.7 擦 兆 


经 过 所 有 这 些 讨 论 ， 你 可 能 想 知 道 : 这 些 校 验 和 何 时 实际 得 到 检查 ? 
当然 ， 在 应 用 程序 访问 数据 时 会 发 生 一 些 检查 ， 但 大 多 数 数据 很 少 被 
访问 ， 因 此 将 保持 未 检查 状态 。 未 经 检查 的 数据 对 于 可 靠 的 存储 系统 

















来 说 是 个 问题 ， 因 为 数据 位 衰减 最 终 可 能 会 影响 特定 数据 的 所 有 副 
本 。 


为 了 解决 这 个 问题 ， 许 多 系统 利用 各 种 形式 的 磁盘 控 净 〈disk 
scrubbing) [K+08] 。 通 过 定期 读 取 系 统 的 每 个 块 ， 并 检查 校 验 和 是 否 
仍然 有 效 ， 磁 盘 系 统 可 以 减少 某 个 数据 项 的 所 有 副本 都 被 破坏 的 可 能 
性 。 典 型 的 系统 每 晚 或 每 周 安排 扫 擂 。 


44.8 校 验 和 的 开销 





在 结束 之 前 ， 讨 论 一 下 使 用 校 验 和 进行 数据 保护 的 一 些 开 销 。 有 两 种 
不 同 的 开销 ， 在 计算 机 系统 中 很 常见 : 空间 和 时 间 。 


空间 开销 有 两 种 形式 。 第 一 种 是 磁盘 〈 或 其 他 存储 介质 ) 本 有 号。 每 个 
存储 的 校 验 和 占用 磁盘 空间 ， 不 能 再 用 于 用 户 数 据 。 典 型 的 比率 可 能 
是 每 4kB 数 据 块 的 8 字 节 校 验 和 ， 磁 盘 空 间 开 销 为 0. 19%。 


第 二 种 空间 开销 来 自 系 统 的 内 存 。 访 问 数据 时 ， 内 存 中 必须 有 足够 的 
空间 用 于 校 验 和 以 及 数据 本 号。 但 是 ， 如 果 系 统 只 是 检查 校 验 和 ， 然 
后 在 完成 后 将 其 丢弃 ， 则 这 种 开销 是 短暂 的 ， 并 不 是 很 重要 。 只 有 将 
校 验 和 保存 在 内 存 中 《为 了 增加 内 存 论 误 防 护 级 别 [Z+13] ) ， 才 能 观 
察 到 这 种 小 开销 。 


里 然 空间 开销 很 小 ， 但 校 验 和 引起 的 时 间 开 销 可 能 非常 明显 。 至 少 ， 
CPU 必 须 计 算 每 个 块 的 校 验 和 ， 包 括 存储 数据 时 (确定 存储 的 校 验 和 的 
值 ) ， 以 及 访问 时 《再 次 计算 校 验 和 ， 并 将 其 与 存储 的 校 验 和 进行 比 
较 ) 。 许 多 使 用 校 验 和 的 系统 “包括 网 络 栈 ) 采用 了 一 种 降低 CPU 开销 
的 方法 ， 将 数据 复制 和 校 验 和 组 合成 一 个 简化 的 活动 。 因 为 无 论 如 何 
都 需要 拷贝 《例如 ， 将 数据 从 内 核 页 面 缓存 复制 到 用 户 缓冲 区 中 ) ， 
组 合 的 复制 / 校 验 和 可 能 非 第 有 效 。 


除了 CPU 开 销 之 外 ， 一 些 校 验 和 方案 可 能 会 导致 外 部 I/0 开 销 ， 特 别 是 
当 校 验 和 与 数据 分 开 存 储 时 《因此 需要 额外 的 1/0 来 访问 它们 〉 ， 以 及 
后 合 探 净 所 需 的 所 有 额外 I/0。 前 者 可 以 通过 设计 减少 ， 后 者 影响 有 
限 ， 因 为 可 以 调整 ， 也 许 通 过 控制 何 时 进行 这 种 擦 兆 活动 。 半 人 夜 ， 当 











大 多 数 〈 不 是 全 部 ) 努力 工作 的 人 们 上 床 睡 觉 时 ， 可 能 是 进行 这 种 控 
疤 活 动 、 增 加 存储 系统 健壮 性 的 好 时 机 。 


44.9 小 结 





我 们 已 经 讨论 了 现代 存储 系统 中 的 数据 保护 ， 重 点 是 校 验 和 的 实现 和 
使 用 。 不 同 的 校 验 和 可 以 防止 不 同类 型 的 故障 。 随 大 存 储 设备 的 发 
展 ， 室 无 疑问 会 出 现 新 的 故障 模式 。 也 许 这 种 变化 将 迫使 研究 界 和 行 
业 重 新 审视 其 中 的 一 些 基 本 方法 ， 或 发 明 全 新 的 方法 。 时 间 会 证 明 ， 
或 者 不 会 。 从 这 个 角度 来 看 ， 时 间 很 有 趣 。 
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第 45 章 ”关于 持久 的 总 结对 话 


学 生 : 哇 ， 文 件 系 统 看 起 来 很 有 趣 ， 但 很 复杂 。 
教授 : 这 就 是 我 和 我 妻子 从 事 这 个 领域 研究 的 原因 。 


学 生 : 坚持 下 去 。 你 是 写 这 本 书 的 教授 之 一 吗 ? 我 认为 我 们 都 只 是 虚 
构 的 ， 用 来 总 结 一 些 要 点 ， 并 可 能 在 操作 系统 的 研究 中 增加 一 点 点 轻 


松 气 氛 。 





教授 ; 呢 …… 呢 …… 也 许 吧 。 不 关 你 的 事 ! 你 认为 是 谁 写 的 这 些 东 
西 ? 《叹气 ) 无 论 如 何 ， 让 我 们 继续 吧 : 你 学 到 了 什么 ? 


学 生 : 嗯 ， 我 认为 我 掌握 了 一 个 要 点 ， 即 长 期 (持久) 管理 数据 比 管 
理 非 持久 数据 《〈 如 内 存 中 的 内 容 ) 要 困难 得 多 。 毕 竞 ， 如 果 你 的 机 器 
骨 沉 ， 那 么 内 存 内 容 就 会 消失 ! 但 文件 系统 中 的 东西 需要 永远 存在 。 


教授 : 好 吧 ， 我 的 朋友 Kevin Hultquist 曾 经 说 过 ，“ 永 远 是 一 段 很 长 
的 时 间 ”。 当 时 他 在 谈论 塑料 高 尔 夫 球 座 ， 对 于 大 多 数 文件 系统 中 的 
垃圾 来 说 ， 尤 其 如 此 。 


学 生 : 嗯 ， 你 知道 我 的 意思 ! 至 少 很 长 一 段 时 间 。 即 使 简单 的 事情 ， 

例如 更 新 持久 存储 设备 ， 也 很 复 杀 ， 因 为 你 必须 关心 如 果 毅 误会 发 生 

We 
! 


教授 : 太 对 了 。 对 持久 存储 的 更 新 向 来 是 ， 并 且 一 直 是 一 个 有 趣 且 有 
挑战 性 的 问题 。 


学 生 : 我 还 学 习 了 磁盘 调度 等 很 酷 的 东西 ， 以 及 RAID、 校 验 和 等 数据 
保护 技术 。 那 些 内 容 很 酷 。 


教授 : 我 也 喜欢 这 些 话题 。 但 是 ， 如 果 你 真 的 深入 进去 ， 可 能 需要 一 
些 数学 。 如 果 你 想 伤 脑筋 ， 请 查看 一 些 最 新 的 擦 除 代码 。 








学 生 : 我 马上 就 去 。 
教授 : 皱眉 ) 我 觉得 你 是 在 讽刺 。 那 么 ， 你 还 喜欢 什么 ? 


学 生 : 我 也 很 喜欢 构建 有 技术 含量 的 系统 的 所 有 想法 ， 比 如 FFS 和 
LFS。 漂 亮 ! 磁盘 意识 似乎 很 酷 。 但 是 ， 有 了 Flash 和 所 有 最 新 技术 ， 
攻 还 车 机 网? 


教授 : 好 问题 ! 这 提醒 我 开始 号 Flash 的 章节 ……: (自己 草草 写 下 一 些 
Es 但 是 ， 就 算 使 用 Flash， 所 有 这 些 东西 仍然 相关 ， 令 人 慨 
讶 。 例 如 ，Flash 转 换 层 (FTL) 在 内 部 使 用 日 志 结构 ， 以 提高 基于 内 
存 的 SSD 的 性 能 和 可 靠 性 。 考 虑 局 部 性 总 是 有 用 的 。 因 此 ， 尽 管 技 术 可 
但 我 们 研究 的 许多 想法 至 少 在 一 段 时 间 内 仍 将 继续 








学 生 : 那 很 好 。 我 刚 花 了 这 人 么 多 时 间 来 学 习 它 ， 不 希望 它 完 全 没 用 ! 
教授 : 教授 不 会 那样 对 你 ， 对 吗 ? 


第 46 章 ”关于 分 布 式 的 对 话 


教授 : 现在 ， 我 们 到 了 操作 系统 领域 的 最 后 一 个 小 部 分 : 分布 式 系 
统 。 由 于 这 里 不 能 介绍 太 多 内 容 ， 我 们 将 在 有 关 持 久 性 的 部 分 中 插入 
一 些 介绍 ， 主 要 关注 分 布 式 文件 系统 。 和 希望 这 样 可 以 ! 


J 
受 ? 


教授 : 咽 ， 我 打赌 你 知道 这 是 怎么 回 事 …… 

学 生 : 有 一 个 桃子 ? 

教授 : 没 错 ! 但 这 一 次 ， 它 离 你 很 远 ， 可 能 需要 一 些 时 间 才 能 拿 到 桃 
子 。 而 且 有 很 多 桃子 ! 更 糟糕 的 是 ， 有 时 桃子 会 腐烂 。 但 你 要 确保 任 
何人 哎 到 桃子 时 ， 都 会 享受 到 美味 。 

学 生 : 这 个 桃子 的 比喻 对 我 来 说 越 来 越 没意思 了 。 

教授 : 好 吧 ! 这 是 最 后 一 个 ， 就 勉 为 其 难 吧 。 

学 生 : 好 的 。 

教授 : 无 论 怎样 ， 忘 了 桃子 吧 。 构 建 分 布 式 系 统 很 难 ， 因 为 事情 总 是 
会 失败 。 消 息 会 丢失 ， 机 器 会 故障 ， 磁 盘 会 损坏 数据 ， 就 像 整 个 世界 
都 在 和 你 作对 ! 

学 生 : 但 我 一 直 使 用 分 布 式 系 统 ， 对 吧 ? 

教授 : 是 的 ! 你 是 在 用 ， 而 且 …… 

学 生 : 好 吧 ， 看 起 来 它们 大 部 分 都 在 工作 。 毕 竞 ， 当 我 向 谷歌 发 送 搜 


索 请 求 时 ， 它 通常 会 快速 啊 应 ， 给 出 一 些 很 棒 的 结果 ! 当 我 用 
Facebook 或 亚马逊 时 ， 也 是 这 样 。 











教授 : 是 的 ， 太 神奇 了 。 尽 管 发 生 了 所 有 这 些 失败 ! 这 些 公司 在 他 们 
的 系统 中 构建 了 大 量 的 机 器 ， 确 保 即 使 革 些 机 器 出 现 故 障 ， 整 个 系统 
也 能 保持 正常 运行 。 他 们 使 用 了 很 多 技术 来 实现 这 一 点 : 复制 ， 重 
试 ， 以 及 各 种 其 他 技巧 。 人 们 随 着 时 间 的 推移 开发 了 这 些 技巧 ， 用 于 
检测 故障 ， 并 从 故障 中 恢复 。 


学 生 : 听 起 来 很 有 趣 。 是 时 候 学 点 真 东西 了 吧 ? 


教授 : 确实 如 此 。 我 们 开始 吧 ! 但 首先 要 做 的 事情 ……〔 咬 一 口 他 一 
直 拿 着 的 桃子 ， 遗 憾 的 是 ， 它 已 经 烂 了) 








第 47 章 ”分布 式 系统 


分 布 式 系 统 改 变 了 世界 的 面貌 。 当 你 的 Web 浏 览 器 连接 到 地 球 上 其 他 地 
方 的 Web 服 务 器 时 ， 它 就 会 参与 似乎 是 简单 形式 的 客户 端 / 服 务 器 
(client/server) 分 布 式 系统 。 当 你 连 上 Google 和 Facebook 等 现代 网 
络 服务 时 ， 不 只 是 与 一 台 机 器 进行 交互 。 在 幕后 ， 这 些 复杂 的 服务 是 
利用 大 量 机 器 (成 干 上 万 台 ) 来 提供 的 ， 每 台 机 器 相互 合作 ， 以 提供 
站 点 的 特定 服务 。 因 此 ， 你 应 该 清楚 什么 让 研究 分 布 式 系统 变 得 有 
趣 。 的 确 ， 它 值得 开 一 门 课 。 在 这 里 ， 我 们 只 介绍 一 些 主要 议题 。 


构建 分 布 式 系统 时 会 出 现 许多 新 的 挑战 。 我 们 关注 的 主要 是 故障 

Cfailure) 。 机 器 、 和 磁盘、 网 络 和 软件 都 会 不 时 故障 ， 因 为 我 们 不 知 
道 〈 并 且 可 能 永远 不 知道 ) 如 何 构建 “完美 ”的 组 件 和 系统 。 但 是 ， 
构建 一 个 现代 的 Web 服 务 时 ， 我 们 希望 它 对 客户 来 说 就 像 永 远 不 会 失败 
一 样 。 怎 样 才能 完成 这 项 任务 ? 








关键 问题 ， 如 何 构 建 在 组 件 故 障 时 仍 能 工作 的 系统 


如 何 用 无 法 一 直 正 常 工作 的 部 件 ， 来 构建 能 工作 系统 ? 这 个 
基本 问题 应 该 让 你 想起 ， 我 们 在 RAID 存 储 阵列 中 讨论 的 一 些 
主题 。 然 而 ， 这 里 的 问题 往往 更 复杂 ， 解 决 方案 也 是 如 此 。 


有 趣 的 是 ， 虽 然 故 障 是 构建 分 布 式 系统 的 核心 挑战 ， 但 它 也 代表 着 一 
个 机 遇 。 是 的 ， 机 器 会 故障 。 但 是 机 器 故障 这 一 事实 并 不 意味 着 整个 
系统 必须 失败 。 通 过 聚集 一 组 机 器 ， 我 们 可 以 构建 一 个 看 起 来 很 少 失 
败 的 系统 ， 尽 管 它 的 组 件 经 常 出 现 故障 。 这 种 现实 是 分 布 式 系统 的 核 
心 优 点 和 价值 ， 也 是 为 什么 它们 几乎 文 持 了 你 使 用 的 所 有 现代 Web 服 
务 ， 包 括 Google、Facebook 等 。 











提示 : 通信 本 喘 是 不 可 靠 的 


几乎 在 所 有 情况 下 ， 将 通信 视 为 根本 不 可 靠 的 活动 是 很 好 
的 。 位 论 误 、 关 闭 或 无 效 的 链接 和 机 器 ， 以 及 缺少 传 入 数据 
包 的 绥 冲 区 空间 ， 都 会 导致 相同 的 结果 : 数据 包 有 时 无 法 到 
达 目 的 地 。 为 了 在 这 种 不 可 靠 的 网 络 上 建立 可 靠 的 服务 ， 我 
们 必须 考虑 能 够 应 对 数据 包 丢 失 的 技术 。 





其 他 重要 问题 也 存在 。 系 统 性 能 (performance) 通常 很 关键 。 对 于 将 
分 布 式 系 统 连接 在 一 起 的 网 络 ， 系 统 设计 人 员 必 须 经 常 仔细 考虑 如 何 
完成 给 定 的 任务 ， 和 尝试 减少 发 送 的 消 奶 数量 ， 并 进一步 使 通信 尺 可 能 
高 效 〈 低 延迟 、 高 带宽 ) 。 


最 后 ， 安 全 (security) 也 是 必要 的 考虑 因素 。 连 接 到 远程 站 点 时 ， 
确保 远程 方 是 他 们 声称 的 那些 人 ， 这 成 为 一 个 核心 问题 。 此 外 ， 确 保 
第 三 方 无 法 监听 或 改变 双方 之 间 正 在 进行 的 通信 ， 也 是 一 项 挑战 。 


本 章 将 介绍 分 布 式 系统 中 最 基本 的 新 方面 : 通信 (communication) 。 
也 就 是 说 ， 分 布 式 系统 中 的 机 器 应 该 如 何 相 互通 信 ? 我 们 将 从 可 用 的 
最 基本 原 语 (消息 ) 开始 ， 并 在 它们 之 上 构建 一 些 更 高 级 的 原 语 。 正 
如 上 面 所 说 的 ， 故 障 将 是 重点 : 通信 层 应 如 何 处 理 故 障 ? 





47. 1 通信 基础 





现代 网 络 的 核心 原则 是 ， 通 信和 基本 是 不 可 徘 的 。 无 论 是 在 广 域 
Internet， 还 是 Infiniband 等 局 域 高 速 网 络 中 ， 数 据 包 都 会 经 常 于 
失 、 损 坏 ， 或 无 法 到 达 目 的 地 。 


数据 包 丢 失 或 损坏 的 原因 很 多 。 有 时 ， 在 传输 过 程 中 ， 由 于 电气 或 其 
他 类 似 问 题 ， 某 些 位 会 被 翻转 。 有 时 ， 系 统 中 的 某 个 元 素 〈 例 如 网 络 
链接 或 数据 包 路 由 器 ， 甚 至 远程 主机 ) 会 以 某 种 方式 损坏 ， 或 以 其 他 
方式 无 法 正常 工作 。 网 络 电线 确实 会 意外 地 被 切断 ， 至 少 有 时 候 。 








然而 ， 更 基本 的 是 由 于 网 络 交 换 机 、 路 由 器 或 终端 市 点 内 缺少 缓冲 ， 
而 导致 数据 包 丢 失 。 具 体 来 说 ， 即 使 我 们 可 以 保证 所 有 和 链 路 都 能 正常 
工作 ， 并 且 系 统 中 的 所 有 组 件 〈 交 换 机 、 路 由 器 、 终 端 主机 ) 都 按 预 
期 启动 并 运行 ， 仍 然 可 能 出 现 丢 失 ， 原 因 如 下 。 想 象 一 下 数据 包 到 达 
路 由 器 。 对 于 要 处 理 的 数据 包 ， 它 必须 放 在 路 由 器 内 某 处 的 内 存 中 。 
如 果 许 多 此 类 数据 包 同 时 到 达 ， 则 路 由 器 内 的 内 存 可 能 无 法 容纳 所 有 
数据 包 。 此 时 路 由 器 唯一 的 选择 是 丢弃 (drop) 一 个 或 多 个 数据 包 。 
同样 的 行为 也 发 生 在 终端 主机 上 。 当 你 向 单 台 机 器 发 送 大 量 消息 时 ， 
机 器 的 资源 很 容易 变 得 不 堪 重 负 ， 从 而 再 次 出 现 丢 包 现象 。 


因此 ， 丢 包 和 是 网 络 的 基本 现象 。 所 以 问题 变 成 : 应 该 如 何 处 理 丢 包 ? 


























47.2 不 可 靠 的 通信 和 层 


一 个 简单 的 方法 是 : 我 们 不 处 理 它 。 由 于 某 些 应 用 程序 知道 如 何 处 理 
数据 包 丢 失 ， 因 此 让 它们 用 基本 的 不 可 靠 消 息 传 递 层 进行 通 信 有 时 很 
有 用 ， 这 是 端 到 端的 论点 (end-to-end argument ) 的 一 个 例子 ， 人 们 
经 常 听 到 (参见 本 章 结 尾 处 的 补充 ) 。 这 种 不 可 靠 层 的 一 个 很 好 的 例 
子 ， 就 是 几乎 所 有 现代 系统 中 都 有 的 UDP/IP 网 络 栈 。 要 使 用 UDP， 进 程 
使 用 套 接 字 ( socket ) API 来 创建 通信 端点 (communication 
endpoint ) 。 其 他 机 器 (或 同一 台 机 器 上 ) 的 进程 将 UDP 数据 报 
、 发 送 到 前 面 的 进程 〈 数 据 报 是 一 个 固定 大 小 的 消息 ， 有 
最 小 ) 。 


图 47. 1 和 图 47. 2 展示 了 一 个 基于 UDP/IP 构 建 的 简单 客户 端 和 服务 器 。 
客户 症 可 以 向 服务 器 友 送 消息 ， 然 后 服务 器 啊 应 回复 。 用 这 么 少 的 代 
码 ， 你 就 拥有 了 开始 构建 分 布 式 系统 所 需 的 一 切 ! 








// client code 
int main(int argc, char *argv[]) { 
int sd = UDP Open (20000); 
struct sockaddr in addr, addr2; 
int rc = UDP FillSockAddr (&addr, "machine.cs.wisc.edu", 10000); 
char message [BUFFER SIZE]; 
sprintf (message, "hello world"); 
rc = UDP Writel(sd, &addr, message, BUFFER SIZE); 
iE (EC 0 A 
int rc = UDP Readl(sd, &addr2, buffer, BUFFER SIZE); 






































return 0; 


} 


// server code 


本 


int 


int 


int 


} 


int 


main (int argc, char *argv[]) { 
int sd = UDP Open(10000); 
assert(sd > -1); 
while (1) { 
struct sockaddr in s; 
char buffer[BUFFER SIZE]; 
int rc = UDP Readl(sd, &s, buffer, BUFFER SIZE); 
i (EG > 0 ‘A 
char reply[lBUFFER SIZE]; 
sprintf (reply, "reply"); 
rc = UDP Writel(sd, &s, reply, BUFFER SIZE); 


















































} 


return 0; 


图 47. 1 UDP/IP 客 户 端 /服务 器 代码 示例 


UDP Open (int port) { 
nt sd 

if ((sd = socket (AF INET, SOCK DGRAM, 0)) == -1) { return -1; } 
struct sockaddr in myaddr; 

bzero(&myaddr, sizeof (myaddr)); 

myaddr.sin family = AF_ INET; 








myaddr.sin port = htons (port); 

myaddr.sin addr.s addr = INADDR ANY; 

if (bind(sd, (struct sockaddr *) &myaddr, sizeof (myaddr)) == -1) { 
close(sd); 


六 CU > 让 用 


} 


return sd; 


UDP FillSockAddr (struct sockaddr in *addr, char *hostName, int port) 
bzerol(laddr, sizeof (struct sockaddr in)); 

addr->sin family = AF INET; // host byte order 

addr->sin port = htons (port); // short, network byte order 
struct in addr *inAddr; 

struct hostent *hostEntry; 

if ((hostEntry = gethostbyname (hostName)) == NULL) { return -1; } 
inAddr = (struct in addr *) hostEntry->h addr; 

addr->sin addr = *inAddr; 

return 0; 














UDP Write(int sd, struct sockaddr in *addr, char *buffer, int n) { 
int addrLen = sizeof(struct sockaddr in); 
return sendtol(sd, buffer, n, 0, (struct sockaddr *) addr, addrLen); 





UDP Read (int sd, struct sockaddr in *addr, char *buffer, int n) { 


int len = sizeof (struct sockaddr in); 
return recvfrom(sd, buffer, n, 0, (struct sockaddr *) addr, 


(socklen t *) &len); 


return rc; 


图 47. 2 一 个 简单 的 UDP 库 


UDP 是 不 可 靠 通信 层 的 一 个 很 好 的 例子 。 如 果 你 使 用 它 ， 就 会 遇 到 数据 
包 丢 失 〈 丢 弃 ) ， 从 而 无 法 到 达 目 的 地 的 情况 。 发 送 方 永 远 不 会 被 告 
知 丢 失 。 但 是 ， 这 并 不 意味 着 UDP 根本 不 能 防止 任何 故障 。 例 如 ，UDP 
包含 校 验 和 〈checksun) ， 以 检测 某 些 形 式 的 数据 包 损 坏 。 


但 是 ， 由 于 许多 应 用 程序 只 是 想 将 数据 发 送 到 目的 地 ， 而 不 想 考虑 技 
包 ， 所 以 我 们 需要 更 多 。 具 体 来 说 ， 我 们 需要 在 不 可 靠 的 网 络 之 上 进 
行 可 徘 的 通信 。 














提示 : 使 用 校 验 和 检查 完整 性 


校 验 和 是 在 现代 系统 中 快速 有 效 地 检测 论 误 的 常用 方法 。 一 
个 简单 的 校 验 和 是 加 法 : 就 是 将 一 大 块 数 据 的 字 节 加 起 来 。 
当然 ， 人 们 还 创建 了 许多 其 他 更 复杂 的 校 验 和 ， 包 括 基 本 的 
循环 宛 余 校 验 码 (CRC) 、Fletcher 校 验 和 以 及 许多 其 他 方法 
[MK09] 。 


在 网 络 中 ， 校 验 和 使 用 如 下 : 在 将 消息 从 一 台 计 算 机 发 送 到 
另 一 台 计 算 机 之 前 ， 计 算 消 息 字 节 的 校 验 和 。 然 后 将 消 轧 和 
校 验 和 发 送 到 目的 地 。 在 目的 地 ， 接 收 器 也 计算 传 入 消息 的 
校 验 和 。 如 果 这 个 计算 的 校 验 和 与 发 送 的 校 验 和 匹配 ， 则 接 
收 方 可 以 确保 数据 在 传输 期 间 很 可 能 没有 被 破坏 。 


校 验 和 可 以 从 许多 不 同 的 方面 进行 评 佑 。 有 效 性 是 一 个 主要 
考虑 因素 : 数据 的 变化 是 否 会 导致 校 验 和 的 变化 ? 校 验 和 越 
强 ， 数 据 变 化 就 越 难 被 忽视 。 性 能 是 男 一 个 重要 标准 : 计算 
校 验 和 的 成 本 是 多 少 ? 遗憾 的 是 ， 有 效 性 和 性 能 通常 是 不 一 
致 的 ， 这 意味 着 高 质量 的 校 验 和 通常 很 难 计算 。 生 活 并 不 完 
美 ， 双 是 这 样 。 








47.3 可 靠 的 通信 和 层 


为 了 构建 可 靠 的 通信 层 ， 我 们 需要 一 些 新 的 机 制 和 技术 来 处 理 数据 包 
丢失 。 考 虑 一 个 简单 的 示例 ， 其 中 客户 端 通过 不 可 靠 的 连接 向 服务 器 
发 送 消息 。 我 们 必须 回答 的 第 一 个 问题 是 : 发 送 方 如 何 知 道 接收 方 实 
际 收 到 了 消息 ? 


我 们 要 使 用 的 技术 称 为 确认 (acknowledgment) ， 或 简称 为 ack。 这 个 
想法 很 简单 : 发送 方 向 接收 方 发 送 消息 ， 接 收 方 然后 发 回 短 消息 确认 
收 到 。 图 47. 3 描述 了 该 过 程 。 


发 送 方 楼 收 方 
发 送 清 息 
ak 
人 
收 到 确认 


图 47.3 ”消息 加 确认 


当 发 送 方 收 到 该 消息 的 确认 时 ， 它 可 以 放心 接收 方 确实 收 到 了 原始 消 
恩 。 但 是 ， 如 果 没 有 收 到 确认 ， 发 送 方 应 该 怎么 办 ? 


为 了 处 理 这 种 情况 ， 我们 需要 一 种 额外 的 机 制 ， 称 为 超时 
(timeout ) 。 当 发 送 方 发 送 消息 时 ， 发 送 方 现 在 将 计时 器 设置 为 在 一 
段 时 间 后 关闭 。 如 果 在 此 时 间 内 未 收 到 确认 ， 则 发 送 方 断 定 该 消息 已 
丢失 。 发 送 方 然 后 就 重 试 (retry) 发 送 ， 再 次 发 送 相同 的 消息 ， 希 望 
这 次 它 能 送 达 。 要 让 这 种 方法 起 作用 ， 发 送 方 必须 保留 一 份 消 息 副 
本 ， 以 防 它 需 要 再 次 发 送 。 超 时 和 重 试 的 组 合 导致 一 些 人 称 这 种 方法 
为 超时 / 重 试 (timeout/retry) 。 非 常 聪明 的 一 群 人 ， 那 些 搞 网 络 
的 ， 不 是 吗 ? 图 47. 4 展示 了 一 个 例子 。 


遗憾 的 是 ， 这 种 形式 的 超时 / 重 试 还 不 够 。 图 47. 5 展示 了 可 能 导致 故障 
的 数据 包 丢 失 示 例 。 在 这 个 例子 中 ， 丢 失 的 不 是 原始 消 轧 ， 而 是 确认 
消息 。 从 发 送 方 的 角度 来 看 ， 情 况 似乎 是 相同 的 :没有 收 到 确认 ， 因 
此 超时 和 重 试 是 合适 的 。 但 是 从 接收 方 的 角度 来 看 ， 完 全 不 同 : 现在 
相同 的 消息 收 到 了 两 次 ! 虽然 可 能 存在 这 种 情况 ， 但 通常 情况 并 非 如 






































此 。 设 想 下 载 文件 时 ， 在 下 载 过 程 中 重复 多 个 数据 包 ， 会 发 生 什么 。 
因此 ， 如 果 目 标 是 可 靠 的 消息 层 ， 我 们 通常 还 希望 保证 接收 方 每 个 消 
筷 只 接收 一 次 (exactly once) 。 
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图 47.4 消息 加 确认 : 丢失 的 请 求 
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图 47. 5 ”消息 加 确认 : 丢失 回答 


为 了 让 接收 方 能 够 检测 重复 的 消息 传输 ， 发 送 方 必须 以 茶 种 独特 的 方 
式 标识 每 个 消息 ， 并 且 接 收 方 需要 茶 种 方式 来 退 踩 它 是 否 已 经 看 过 每 
个 消 轧 。 当 接收 方 看 到 重复 传输 时 ， 它 只 是 简单 地 啊 应 消息 ， 但 《〈 严 
格 地 说 ) 不 会 将 消 轧 传递 给 接收 数据 的 应 用 程序 。 因 此 ， 发 送 方 收 到 
确认 ， 但 消息 未 被 接收 两 次 ， 保 证 了 上 面 提 到 的 一 次 性 语义 。 




















有 许多 方法 可 以 检测 重复 的 消息 。 例 如 ， 发 送 方 可 以 为 每 条 消息 生成 
唯一 的 ID。 接 收 方 可 以 妃 踪 它 所 见 过 的 每 个 ID。 这 种 方法 可 行 ， 但 它 
的 成 本 非 第 高 ， 需 要 无 限 的 内 存 来 跟踪 所 有 1D。 


一 种 更 简单 的 方法 ， 只 需要 很 少 的 内 存 ， 解 决 了 这 个 问题 ， 该 机 制 被 
称 为 顺序 计数 器 (sequence counter) 。 利 用 顺序 计数 器 ， 发 送 方 和 
接收 方 就 每 一 方 将 维护 的 计数 器 的 起 始 值 达 成 一 致 〈 例 如 1) 。 无 论 何 
时 发 送 消息 ， 计 数 器 的 当前 值 都 与 消息 一 起 发 送 。 此 计数 器 值 (WNW) 作 
为 消息 的 ID。 发 送 消息 后 ， 发 送 方 递增 该 值 (到 N+ 1) 。 


接收 方 使 用 其 计数 器 值 ， 作 为 发 送 方 传 入 消 妃 的 ID 的 预期 值 。 如 果 接 
收 的 消 轧 〈W) 的 ID 与 接收 方 的 计数 器 匹配 (也 是 MW ， 它 将 确认 该 消 
轧 ， 将 其 传递 给 上 层 的 应 用 程序 。 在 这 种 情况 下 ， 接 收 方 断定 这 是 第 
一 次 收 到 此 消息 。 接 收 方 然 后 递增 其 计数 器 (到 NW + 1) ， 并 等 待 下 一 


条 消息 。 


如 果 确 认 丢 失 ， 则 发 送 方 将 超时 ， 并 重新 发 送 消 轧 wW。 这 次 ， 接 收 器 的 
计数 器 更 高 (M1) ， 因 此 接收 器 知道 它 已 经 接收 到 该 消 轧 。 因 此 和 它 会 
确认 该 消 轧 ， 但 不 会 将 其 传递 给 应 用 程序 。 以 这 种 简单 的 方式 ， 顺 序 
计数 器 可 以 避免 重复 。 


最 常用 的 可 靠 通 信 层 称 为 TCP/IP， 或 简称 为 TCP。TCP 比 上 面 描述 的 要 
复杂 得 多 ， 包 括 处 理 网 络 拥塞 的 机 制 [VJ88] ， 多 个 未 完成 的 请 求 ， 以 
及 数 百 个 其 他 的 小 调整 和 优化 。 如 果 你 很 好 奇 ， 请 阅读 更 多 相关 信 
恩 。 参 加 一 个 网 络 课程 并 很 好 地 学 习 这 些 材 料 ， 这 样 更 好 。 




















47.4 通信 抽象 


有 了 基本 的 消息 传递 层 ， 现 在 过 到 了 本 章 的 下 一 个 问题 ， 构建 分 布 式 
系统 时 ， 应 该 使 用 什么 抽象 通信 ? 


提示 : 小 心 设置 超时 值 


你 也 许可 以 从 讨论 中 猜 到 ， 正 确 设 置 超时 值 ， 是 使 用 超时 重 
试 消 轧 发 送 的 一 个 重要 方面 。 如 果 超 时 太 小 ， 发 送 方 将 不 必 
要 地 重新 发 送 消息 ， 从 而 浪费 发 送 方 的 CPU 时 间 和 网 络 资源 。 
如 果 超 时 太 大 ， 则 发 送 方 为 重 发 等 待 太 长 时 间 ， 因 此 会 感到 
发 送 方 的 性 能 降低 。 所 以 ， 从 单个 客户 端 和 服务 器 的 角度 来 
人 
但 不 能 再 长 。 


但 是 ， 分 布 式 系统 中 通常 不 只 有 一 个 客户 问 和 服务 器 ， 我 们 
在 后 面 的 章节 中 会 看 到 。 在 许多 客户 端 发 送 到 单个 服务 器 的 
情况 下 ， 服 务 器 上 的 数据 包 丢 失 可 能 表明 服务 髓 过载。 如果 
是 这 样 ， 则 客户 端 可 能 会 以 不 同 的 上 自 适 应 方式 重 试 。 例 如 ， 
在 第 一 次 超时 之 后 ， 客 户 端 可 能 会 将 其 超时 值 增 加 到 更 高 的 
量 ， 可 能 是 原始 值 的 两 倍 。 这 种 指数 倒退 (exponential 
back-off) 方案 ， 在 早期 的 Aloha 网 络 中 实施 ， 并 在 早期 的 以 
太 网 [A70j 中 采用 ， 避 免 了 资源 因 过 量 重 发 而 过 载 的 情况 。 健 
壮 的 系统 力求 避免 这 种 过 载 。 




















多 年 来 ， 系 统 社 区 开发 了 许多 方法 。 其 中 一 项 工作 涉及 操作 系统 抽 
象 ， 将 其 扩展 到 在 分 布 式 环境 中 运行 。 例 如， 分 布 式 共享 内 存 
(Distributed Shared Memory，DSM) 系统 使 不 同 机 器 上 的 进程 能 够 
共享 一 个 大 的 虚拟 地 址 空间 [LH89] 。 这 种 抽象 将 分 布 式 计算 变 成 貌似 
多 线程 应 用 程序 。 唯 一 的 区 别 是 这 些 线程 在 不 同 的 机 器 上 运行 ， 而 不 
是 在 同一 台 机 器 上 的 不 同 处 理 器 上 。 


大 多 数 DSM 系 统 的 工作 方式 是 通过 操作 系统 的 虚拟 内 存 系统 。 在 一 台 计 
算 机 上 访问 页 面 时 ， 可 能 会 发 生 两 种 情况 。 在 第 一 种 〈 最 佳 ) 情况 
下 ， 页 面 己 经 是 机 器 上 的 本 地 页 面 ， 因 此 可 以 快速 获取 数据 。 在 第 二 
种 情况 下 ， 页 面目 前 在 其 他 机 器 上 。 发 生 页 面 错误 ， 页 面 错误 处 理 程 
序 将 消息 发 送 到 其 他 计算 机 以 获取 页 面 ， 将 其 装 入 请 求 进程 的 页 表 
中 ， 然 后 继续 执行 。 


由 于 许多 原因 ， 这 种 方法 今天 并 未 广泛 使 用 。DSM 最 大 的 问题 是 它 如 何 
处 理 故障 。 例 如 ， 想 象 一 下 ， 如 果 机 器 出 现 故 障 。 那 台 机 器 上 的 页 面 
会 发 生 什么 ? 如 果 分 布 式 计算 的 数据 结构 分 布 在 整个 地 址 空间 怎么 
办 ? 在 这 种 情况 下 ， 这 些 数据 结构 的 一 部 分 将 突然 变 得 不 可 用 。 如 果 



































部 分 地 址 空间 丢失 ， 处 理 故 障 会 很 难 。 想 象 一 下 链表 ， 其 中 下 一 个 指 
针 指 向 已 经 消失 的 地 址 空间 的 一 部 分 。 


男 一 个 问题 是 性 能 。 人 们 通常 认为 ， 在 编写 代码 时 ， 访 问 内 存 的 成 本 
很 低 。 在 DSM 系 统 中 ， 一 些 访问 是 便宜 的 ， 但 是 其 他 访问 导致 页 面 错误 
和 远程 机 器 的 昂贵 提取 。 因 此 ， 这 种 DSM 系 统 的 程序 员 必 须 非常 小 心地 
组 织 计 算 ， 以 便 几乎 不 发 生 任何 通信 ， 从 而 打败 了 这 种 方法 的 主要 出 
发 点 。 虽 然 在 这 个 领域 进行 了 大 量 研 究 ， 但 实际 影响 不 大 。 没 有 人 用 
DSM 构 建 可 靠 的 分 布 式 系 统 。 














47.5 远程 过 程 调用 (RPC) 





虽然 最 终结 末 表 明 ， 操作 系统 抽象 对 于 构建 分 布 式 系统 来 说 是 一 个 粳 
糕 的 选择 ， 但 编程 语言 (PL) 抽象 要 有 意义 得 多 。 最 主要 的 抽象 是 基 
于 远程 过 程 调用 (Remote Procedure Call) ， 或 简称 REPC [BN84]J。 


远程 过 程 调用 包 都 有 一 个 简单 的 目标 : 使 在 远程 机 器 上 执行 代码 的 过 
程 像 调 用 本 地 函数 一 样 简单 直接 。 因 此 ， 对 于 客户 端 来 说 ， 进 行 一 个 
过 程 调 用 ， 并 在 一 段 时 间 后 返回 结果 。 服 务 器 只 是 定义 了 一 些 它 希望 
导出 的 例 程 。 其 余 的 由 RPC 系 统 处 理 ，RPC 系 统 通常 有 两 部 分 : 存根 生 
成 器 (stub generator， 有 时 称 为 协议 编译 器 ，protocol compiler) 
和 运行 时 库 (run-time library) 。 接 下 来 将 更 详细 地 介绍 这 些 部 
os 








存根 生成 器 


存根 生成 器 的 工作 很 简单 : 通过 上 自动化， 消除 将 函数 参数 和 结果 打包 
成 消息 的 一 些 痛 苗 。 这 有 许多 好 处 :通过 设计 避免 了 手工 编写 此 类 代 
码 时 出 现 的 简单 错误 。 此 外 ， 存 根 生成 器 也 许可 以 优化 此 类 代码 ， 从 
而 提高 性 能 。 


这 种 编译 器 的 输入 就 是 服务 器 希望 导出 到 客户 端的 一 组 调用 。 从 概念 
上 讲 ， 它 可 能 就 像 这 样 简单 : 


interface { 
int funcl(int argl); 





int func2 (int argl, int arg2); 


}; 


存根 生成 器 接受 这 样 的 接口 ， 并 生成 一 些 不 同 的 代码 片段 。 对 于 客户 
端 ， 生 成 客户 端 存根 (client stub) ， 其 中 包含 接口 中 指定 的 每 个 函 
数 。 和 希望 使 用 此 RPC 服 务 的 客户 端 程序 将 链接 此 客户 端 存根 ， 调 用 它 以 
进行 RPC。 

在 内 部 ， 客 户 端 存根 中 的 每 个 函数 都 执行 远程 过 程 调用 所 需 的 所 有 工 


作 。 对 于 客户 端 ， 代 码 只 是 作为 函数 调用 出 现 ( 例 如 ， 客 户 端 调用 
funcl (x) ) 。 在 内 部 ，funcl0 的 客户 端 存根 中 的 代码 执行 此 操作 : 











。 创 建 消息 缓冲 区 。 消 奶 缓冲 区 通常 只 是 某 种 大 小 的 连续 字 节 数 


组 。 

将 所 需 信 息 打 包 到 消息 缓冲 区 中 。 该 信息 包括 要 调用 的 函数 的 某 
种 标识 符 ， 以 及 函数 所 需 的 所 有 参数 〈 例 如， 在 上 面 的 示例 中 ， 
funcl 需 要 一 个 整数 ) 。 将 所 有 这 些 信息 放 入 单个 连续 缓冲 区 的 过 
程 ， 有 时 被 称 为 参数 的 封 送 处 理 (marshaling) 或 消息 的 序列 化 
(serialization) 。 

将 消息 发 送 到 目标 RPC 服 务 器 。 与 RPC 服 务 器 的 通信 ， 以 及 使 其 正 
常 运行 所 需 的 所 有 细节 ， 都 由 RPC 运 行 时 库 处 理 ， 如 下 所 述 。 
等 待 回复 。 由 于 函数 调用 通常 是 同步 的 〈synchronous) ， 因 此 调 
用 将 等 待 其 完成 。 

解 包 返 回 代 码 和 其 他 参数 。 如 果 函 数 只 返回 一 个 返回 码 ， 那 么 这 
个 过 程 很 简单 。 但 是 ， 较 复杂 的 函数 可 能 会 返回 更 复杂 的 结果 
例如， 列表) ， 因 此 存根 可 能 也 需要 对 它们 解 包 。 此 步骤 也 称 
为 解 封 送 人 处理 ( unmarshaling ) 或 反 序 列 化 
(deserialization) 。 


。 返 回调 用 者 。 最 后 ， 只 需 从 客户 端 存 根 返 回 到 客户 端 代 码 。 
对 于 服务 器 ， 也 会 生成 代码 。 在 服务 器 上 执行 的 步骤 如 下 : 








。 解 包 消 息 。 此 步骤 称 为 解 封 送 处 理 (unmarshaling) 或 反 序 列 化 
(deserialization) ， 将 信息 从 传 入 消息 中 取出 。 提 取 函 数 标识 
符 和 参数 。 
。 调 用 实际 函数 。 终 于 ， 我 们 到 了 实际 执行 远程 函数 的 地 方 。RPC 运 
行 时 调用 ID 指定 的 函数 ， 并 传 入 所 需 的 参数 。 
。 打 包 结 果 。 返 回 参 数 被 封 送 处 理 ， 放 入 一 个 回复 缓冲 区 。 
。 发 送 回复 。 回 复 最 终 被 发 送 给 调用 者 。 


在 存根 编译 器 中 还 有 一 些 其 他 重要 问题 需要 考虑 。 第 一 个 是 复杂 的 参 
数 ， 即 一 个 包 如 何 发 送 复杂 的 数据 结构 ? 例如， 调用 write 0 系统 调用 
时 ， 会 传 入 3 个 参数 : 一 个 整数 文件 描述 符 ， 一 个 指 回 缓冲 区 的 指针 ， 
以 及 一 个 大 小 ， 指 示 要 写 入 多 少 字 节 《从 指针 开始 ) 。 如 果 向 RPC 包 传 
入 了 一 个 指针 ， 它 需要 能 够 弄 清楚 如 何 解释 该 指针 ， 并 执行 正确 的 操 
作 。 通 常 ， 这 是 通过 众所周知 的 类 型 (例如 ， 用 于 传递 给 定 大 小 的 数 
据 块 的 缓冲 区 t，RPC 编 译 占 可 以 理解 )， 或 通过 使 用 更 多 信息 注释 数 
据 结构 来 实现 的 ， 从 而 让 编译 器 知道 哪些 字 节 需要 序列 化 。 


男 一 个 重要 问题 是 关于 并 发 性 的 服务 器 组 织 方式 。 一 个 简单 的 服务 器 
只 是 在 一 个 简单 的 循环 中 等 竺 请求， 并 一 次 处 理 一 个 请 求 。 但 是 ， 你 
可 能 已 经 猜 到 ， 这 可 能 非常 低 效 。 如 果 一 个 RPC 调 用 阻塞 〈 例 如 ， 在 
LI/0 上 ) ， 就 会 浪费 服务 器 资源 。 因 此 ， 大 多 数 服务 器 以 某 种 并 发 方式 
构造 。 常 见 的 组 织 方式 是 线程 池 (thread pool) 。 在 这 种 组 织 方式 
中 ， 服 务 器 启动 时 会 创建 一 组 有 限 的 线程 。 消 息 到 达 时 ， 它 被 分 派 给 
这 些 工作 线程 之 一 ， 然 后 执行 RPC 调 用 的 工作 ， 最 终 回 复 。 在 此 期 间 ， 
主线 程 不 断 接收 其 他 请 求 ， 并 可 能 将 其 发 送 给 其 他 工作 线程 。 这 样 的 
组 织 方 式 支 持 服务 器 内 并 发 执行 ， 从 而 提高 其 利用 率 。 标 准 成 本 也 会 
出 现 ， 主 要 是 编程 复杂 性 ， 因 为 RPC 调 用 现在 可 能 需要 使 用 锁 和 其 他 同 
步 原 语 来 确保 它们 的 正确 运行 。 


























运行 时 库 


运行 时 库 处 理 RPC 系 统 中 的 大 部 分 繁重 工作 。 这 里 处 理 大 多 数 性 能 和 可 
靠 性 问题 。 接 下 来 讨论 构建 此 类 运行 时 层 的 一 些 主要 挑战 。 





我 们 必须 克服 的 首要 挑战 之 一 ， 是 如 何 找 到 远程 服务 。 这 个 命名 
(naming) 问题 在 分 布 式 系统 中 很 常见 ， 在 某 种 意义 上 超出 了 我 们 当 
前 讨论 的 范围 。 最 简单 的 方法 建立 在 现 有 命名 系统 上 ， 例 如， 当前 互 
联网 协议 提供 的 主机 名 和 端口 号 。 在 这 样 的 系统 中 ， 客 户 端 必须 知道 
运行 所 需 RPC 服 务 的 机 器 的 主机 名 或 IP 地 址 ， 以 及 它 正在 使 用 的 端口 号 
(端口 号 就 是 在 机 器 上 标识 发 生 的 特定 通信 活动 的 一 种 方式 ， 人 允许 同 
时 使 用 多 个 通信 通道 ) 。 然 后 ， 协 议 套 件 必 须 提 供 一 种 机 制 ， 将 数据 
包 从 系统 中 的 任何 其 他 机 器 路 由 到 特定 地 址 。 有 关 命 名 的 详细 讨论 ， 
请 阅读 Grapevine 的 论文 ， 或 关于 互联 网 上 的 DNS 和 名 称 解 机 ， 或 者 阅 
读 Saltzer 和 Kaashoek 的 书 [SK09] 中 的 相关 章节 ， 这 样 更 好 。 


一 县 客户 端 知道 它 应 该 与 哪个 服务 器 通信 ， 以 获得 特定 的 远程 服务 ， 
下 一 个 问题 是 应 该 构建 RPC 的 传输 级 协议 。 具 体 来 说 ，RPC 系 统 应 该 使 
用 可 靠 的 协议 (如 TCP/IP〉 ， 还 是 建立 在 不 可 靠 的 通信 层 〈( 如 
UDP/ZIP) 上 ? 


天 真 的 选择 似乎 很 容易 ， 显 然 ， 我 们 希望 将 请 求 可 靠 地 传送 到 远程 服 
务 器 ， 显 然 ， 我 们 希望 能 够 可 靠 地 收 到 回复 。 因 此 ， 我 们 应 该 选择 TCP 
这 样 的 可 靠 传 输 协 议 ， 对 吗 ? 


遗憾 的 是 ， 在 可 靠 的 通信 层 之 上 构建 RPC 可 能 会 导致 性 能 的 低 效 率 。 回 
顾 上 面 的 讨论 ， 可 靠 的 通信 层 如 何 工作 ， 确 认 和 超时 / 重 坛 。 因 此 ， 当 
客户 端 向 服务 器 发 送 RPC 请 求 时 ， 服 务 器 以 确认 响应 ， 以 便 调用 者 知道 
收 到 了 请 求 。 类 似 地 ， 当 服务 器 将 回复 发 送 到 客户 端 时 ， 客 户 端 会 对 
其 进行 确认 ， 以 便服 务 器 知道 它 已 被 接收 。 在 可 靠 的 通信 层 之 上 构建 
请 求 /响应 协议 例如 RPC》， 必 须发 送 两 个 “额外 ”消息 ， 


因此 ， 许 多 RPC 软 件 包 都 建立 在 不 可 靠 的 通信 和 层 之 上 ， 例 如 UDP。 这 样 
做 可 以 实现 更 高 效 的 RPC 层 ， 但 确实 增加 了 为 RPC 系 统 提 供 可 靠 性 的 责 
任 。RPC 层 通过 使 用 超时 / 重 试 和 确认 来 实现 所 需 的 贡 任 级 别 ， 就 像 我 
们 上 面 描述 的 那样 。 通 过 使 用 茶 种 形式 的 序列 编号 ， 通 信 层 可 以 保证 
每 个 RPC 只 发 生 一 次 《在 没有 故障 的 情况 下 ) ， 或 者 最 多 只 发 生 一 次 
(在 发 生 故障 的 情况 下 〉。 














其 他 问题 


还 有 一 些 其 他 问题 ，RPC 的 运行 时 也 必须 处 理 。 例 如 ， 当 远程 调用 需要 
很 长 时 间 才 能 完成 时 ， 会 发 生 什 么 ? 鉴于 我 们 的 超时 机 制 ， 长 时 间 运 
行 的 远程 调用 可 能 被 客户 端 认 为 是 故 隐 ， 从 而 触发 重 试 ， 因 此 需要 小 
心 。 一 种 解决 方案 是 在 没有 立即 生成 回复 时 使 用 显 式 确 认 〈 从 接收 方 
到 发 送 方 )。 这 让 客户 并 知道 服务 器 收 到 了 请 求 。 然 后 ， 经 过 一 段 时 
间 后 ， 客 户 症 可 以 定期 询问 服务 器 是 否 仍 在 处 理 请 求 。 如 果 服 务 器 一 
直 说 “是 ”， 客 户 端 应 该 感到 高 兴 并 继续 等 待 〈 毕 竞 ， 有 时 过 程 调 用 
可 能 需要 很 长 时 间 才 能 完成 执行 ) 。 


运行 时 还 必须 处 理 具 有 大 参数 的 过 程 调用 ， 大 于 可 以 放 入 单个 数据 包 
的 过 程 。 一 些 底层 的 网 络 协议 提供 这 样 的 发 送 方 分 组 
(fragmentation， 较 大 的 包 分 成 一 组 较 小 的 包 ) 和 接收 方 重组 
(reassembly， 较 小 的 部 分 组 成 一 个 较 大 的 逻辑 整体 ) 。 如 果 没 有 ， 
RPC 运 行 时 可 能 必须 自己 实现 这 样 的 功能 。 有 关 详 细 人 信息， 请 参阅 
Birrell 和 Nelson 的 优秀 RPC 论 文 [BN84]。 


许多 系统 要 人 处理 的 一 个 问题 是 字 节 序 (byte ordering) 。 你 可 能 知 
道 ， 有 些 机 器 存储 值 时 采用 所 谓 的 大 端 序 (big endian) ， 而 其 他 机 
器 采用 小 端 序 〈1little endian) 。 大 端 序 存储 从 最 高 有 效 位 到 最 低 有 
效 位 的 字 节 《比如 整数 ) ， 非 常 像 阿 拉 伯 数字 。 小 端 序 则 相反 。 两 者 
人 这 里 的 问题 是 如 何在 不 同 字 节 序 的 机 器 之 
间 进 行 通信 。 



































补充 : 端 到 端的 论点 


端 到 端的 论点 (end-to-end argument) 表明 ， 系 统 中 的 最 高 
层 〈( 通 常 是 “末端 ”的 应 用 程序 ) 最 终 是 分 层 系统 中 唯一 能 
人 够 真正 实现 某 些 功能 的 地 方 。 在 Saltzer 等 人 的 标志 性 论文 
中 ， 他 们 通过 一 个 很 好 的 例子 来 证 明 这 一 点 : 两 台 机 器 之 间 
可 靠 的 文件 传输 。 如 果 要 将 文件 从 机 器 A 传 输 到 机 器 B， 并 确 
保 最 终 在 B 上 的 字 节 与 从 A 开始 的 字 节 完全 相同 ， 则 必须 对 此 
进行 “ 端 到 端 ” 检 查 。 较 低级 别 的 可 靠 机 制 ， 例 如 在 网 络 或 
磁盘 中 ， 不 提供 这 种 保证 。 


与 此 相对 的 是 一 种 方法 ， 尝 试 通过 向 系统 的 较 低层 添加 可 靠 
性 ， 来 解决 可 靠 文件 传输 问题 。 例 如 ， 假 设 我 们 构建 了 一 个 











可 靠 的 通信 协议 ， 并 用 它 来 构建 可 靠 的 文件 传输 。 通 信 协 议 
保证 发 送 方 发 送 的 每 个 字 节 都 将 由 接收 方 按 顺 序 接收 ， 例 如 
使 用 超时 / 重 试 、 确 认 和 序列 写 。 遗 憾 的 是 ， 使 用 这 样 的 协议 
并 不 能 实现 可 靠 的 文件 传输 。 想 象 一 下 ， 在 通信 发 生 之 前 ， 
发 送 方 内 存 中 的 字 节 被 破坏 ， 或 者 当 接 收 方 将 数据 写 入 磁盘 
时 发 生 了 一 些 不 好 的 事情 。 在 这 些 情况 下 ， 即 使 字 节 在 网 络 
上 可 靠 地 传递 ， 文 件 传输 最 终 也 不 可 靠 。 要 构建 可 靠 的 文件 
传输 ， 必 须 包 括 端 到 端的 可 靠 性 检查 ， 例 如 ， 在 整个 传输 完 
成 后 ， 读 取 接 收 方 磁盘 上 的 文件 ， 计 算 校 验 和 ， 并 将 该 校 验 
和 与 发 送 方 文件 的 校 验 和 进行 比较 。 


按照 这 个 准则 的 推论 是 ， 有 时 候 ， 较 低层 提供 额外 的 功能 确 
实 可 以 提高 系统 性 能 ， 或 在 其 他 方面 优化 系统 。 因 此 ， 不 应 
该 排除 在 系统 中 较 低层 的 这 种 机 制 。 实 际 上 ， 你 应 该 小 心 考 
9 考虑 它 最 终 对 整个 系统 或 应 用 程序 的 








RPC 包 通常 在 其 消 明 格式 中 提供 明确 定义 的 字 节 序 ， 从 而 处 理 该 问题 。 
在 Sun 的 RPC 包 中 ，XDR (eXternal Data Representation， 外 部 数据 表 
示 ) 层 提供 此 功能 。 如 果 发 送 或 接收 消 恩 的 计算 机 与 XYDR 的 字 节 顺序 匹 
配 ， 就 会 按 预 期 发 送 和 接收 消息 。 但 是 ， 如 果 机 器 通信 具有 不 同 的 字 
ee 因此 ， 字 节 顺 序 的 差异 可 以 有 


最 后 一 个 问题 是 : 是 否 回 客户 端 暴露 通信 的 异步 性 质 ， 从 而 实现 一 些 
性 能 优化 。 具 体 来 说 ，— 典 型 的 RPC 是 同步 (synchronously) 的 ， 即 当 
客户 端 发 出 过 程 调 用 时 ， 它 必须 等 待 过 程 调 用 返回 ， 然 后 再 继续 。 
为 这 种 等 待 可 能 很 长 ， 而 且 因 为 客户 端 可 能 正在 执行 其 他 工作 ， 所 以 
某 些 RPC 包 让 你 能 够 异步 (asynchronously) 地 调用 RPC。 当 发 出 异步 
RPC 时 ，RPC 包 发 送 请 求 并 立即 返回 。 然 后 ， 客 户 端 可 以 自由 地 执行 其 
他 工作 ， 例 如 调用 其 他 RPC， 或 进行 其 他 有 用 的 计算 。 客 户 端 在 某 些 时 
候 会 希望 看 到 异步 RPC 的 结果 。 因 此 它 再 次 调用 RPC 层 ， 告 诉 它 等 竺 未 
完成 的 RPC 完 成 ， 此 时 可 以 访问 返回 的 结果 。 























47.6 小 结 


我 们 介绍 了 一 个 新 主题 ， 分 布 式 系统 及 其 主要 问题 : 如 何 处 理 故 障 现 
在 是 常见 事件 。 正 如 人 们 在 Google 内 部 所 说 的 那样 ， 当 你 只 有 自己 的 
台式 机 时 ， 故 障 很 少见 。 当 你 拥有 数 千 人 台 机 器 的 数据 中 心 时 ， 故 障 一 
直 在 发 生 。 所 有 分 布 式 系统 的 关键 是 如 何 处 理 故 障 。 


我 们 还 看 到 ， 通 信和 是 所 有 分 布 式 系统 的 核心 。 在 远程 过 程 调用 (RPC) 
中 可 以 看 到 这 种 通信 的 常见 抽象 ， 它 使 客户 端 能 够 在 服务 器 上 进行 远 
程 调用 。RPC 包 处 理 所 有 细节 ， 包 括 超时 / 重 试 和 确认 ， 以 便 提供 一 种 
服务 ， 很 像 本 地 过 程 调 用 。 


真正 理解 RPC 包 的 最 好 方法 ， 当 然 是 亲自 使 用 它 。Sun 的 RPC 系 统 使 用 存 
根 编译 器 rpcgen， 它 是 很 常见 的 ， 在 当今 的 许多 系统 上 可 用 ， 包 括 
Linux。 尝 斌 一下， 看 看 所 有 这 些 麻 烦 到 底 是 怎么 回 事 。 
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关于 客户 端 应 如 何 调整 ， 以 感知 网 络 拥 塞 的 开创 性 论文 。 绝 对 是 互联 
网 背后 的 关键 技术 之 一 ， 所 有 认真 对 待 系统 的 人 必 读 。 





[1]， 在 现代 编程 语言 中 ， 我 们 可 能 会 说 远程 方法 调用 (RMI〉， 但 谁 
会 喜欢 这 些 语言 ， 还 有 它们 所 有 的 花哨 对 象 ? 


第 48 章 ”Sun 的 网 络 文件 系统 CNEFS ) 





分 布 式 客户 端 / 服 务 器 计算 的 首次 使 用 之 一 ， 是 在 分 布 式 文件 系统 领 
域 。 在 这 种 环境 中 ， 有 许多 客户 端 机 器 和 一 个 服务 器 《或 几 个 ) 。 服 
务 器 将 数据 存储 在 其 磁盘 上 ， 客 户 端 通过 结构 良好 的 协议 消息 请 求 数 
据 。 图 48. 1 展示 了 基本 设置 。 





客户 端 0 





BeBe9 





客 忠 端 3 


图 48. 1 一 般 的 客户 端 /服务 器 系统 
从 图 中 可 以 看 到 ， 服 务 器 有 磁盘 ， 发 送 消息 的 客户 端 通过 网 络 ， 访 问 
服务 器 磁盘 上 的 目录 和 文件 。 为 什么 要 麻烦 ， 采 用 这 种 安排 ? (也 就 
征 说 ， 为 什么 不 就 让 客户 端 用 它们 的 本 地 磁盘 ? ) 好 吧 ， 这 种 设置 允 


许 在 客户 端 之 间 轻 松 地 共享 (sharing) 数据 。 因 此 ， 如 果 你 在 一 台 计 
算 机 上 访问 文件 〈 客 户 端 0) ， 然 后 再 使 用 另 一 台 “【 客 户 端 2) ， 则 你 
将 拥有 相同 的 文件 系统 视图 。 你 可 以 在 这 些 不 同 的 机 器 上 自然 共享 你 
的 数据 。 第 二 个 好 处 是 集中 管理 (centralized administration) 。 
例如 ， 备 份 文件 可 以 通过 少数 服务 器 机 器 完成 ， 而 不 必 通 过 众多 客户 
0 (security) ， 将 所 有 服务 器 放 在 加 锁 的 
儿 房 中 。 


关键 问题 ， 如 何 构建 分 布 式 文件 系统 


如 何 构建 分 布 式 文件 系统 ? 要 考虑 哪些 关键 方面 ? 哪里 容易 
出 错 ? 我 们 可 以 从 现 有 系统 中 学 到 什么 ? 





48. 1 基本 分 布 式 文件 系统 


我 们 将 研究 分 布 式 文件 系统 的 体系 结构 。 简 单 的 客户 端 /服务 器 分 布 式 
文件 系统 ， 比 之 前 研究 的 文件 系统 拥有 更 多 的 组 件 。 在 客户 端 ， 客 户 
端 应 用 程序 通过 客户 端 文件 系统 (client-side file system) 来 访问 
文件 和 目录 。 客 户 端 应 用 程序 癌 客 户 端 文件 系统 发 出 系统 调用 
(system call， 例 如 open()、read()、write()、close()、mkdir() 
等 ) ， 以 便 访问 保存 在 服务 器 上 的 文件 。 因 此 ， 对 于 客户 端 应 用 程 
序 ， 该 文件 系统 似乎 与 基于 磁盘 的 文件 系统 没有 任何 不 同 ， 除 了 性 能 
之 外 。 这 样 ， 分 布 式 文件 系统 提供 了 对 文件 的 透明 (transparent) 访 
问 ， 这 是 一 个 明显 的 目标 。 毕 竟 ， 谁 想 使 用 文件 系统 时 需要 不 同 的 
API， 或 者 用 起 来 很 痛 苗 ? 


客户 端 文件 系统 的 作用 ， 是 执行 服务 这 些 系统 调用 所 需 的 操作 如 图 
48.2 所 示 。 例 如 ， 如 果 客 户 端 发 出 read() 请 求 ， 则 客户 端 文 件 系统 可 
以 问 服务 器 端 文件 系统 (server-side file system， 或 更 常见 的 是 文 
件 服务 器 ，file server) 发送 消息 ， 以 读 取 特定 块 。 然 后 ， 文 件 服务 
器 将 从 磁极 (或 自己 的 内 存 缓存 ) 中 读 取 块 ， 并 发 送 消息 ， 将 请 求 的 
数据 发 送 回 客户 端 。 然 后 ， 客 户 端 文件 系统 将 数据 复制 到 用 户 的 缓冲 























区 中 。 请 注意 ， 客 户 端 内 存 或 客户 端 磁盘 上 的 后 续 readW 可 以 缓存 
(cached) 在 客户 端 内 存 中 ， 在 最 好 的 情况 下 ， 不 需要 产生 网 络 流 


里 。 


客户 少 应 用 程序 
客户 谓 文 件 系统 文件 服务 器 全 少 秘 担 








图 48. 2 ”分 布 式 文件 系统 体系 结构 


通过 这 个 简单 的 概述 ， 你 应 该 了 解 客户 端 /服务 器 分 布 式 文件 系统 中 两 
个 最 重要 的 软件 部 分 : 客户 端 文件 系统 和 文件 服务 器 。 它 们 的 行为 共 
同 决定 了 分 布 式 文件 系统 的 行为 。 现 在 可 以 研究 一 个 特定 的 系统 : Sun 
的 网 络 文件 系统 CNFS) 。 





补充 : 为 什么 服务 器 会 月 溃 


在 深入 了 解 NFSv2 协 议 的 细节 之 前 ， 你 可 能 想 知 道 : 为 什么 服 
务 器 会 朋 尝 ? 好 吧 ， 你 可 能 已 经 猜 到 ， 有 很 多 原因 。 服 务 器 
可 能 会 遭遇 停电 (power outage， 暂 时 的 ) 。 只 有 在 恢复 供 
电 后 才能 重新 启动 机 器 。 服 务 器 通常 由 数 十 万 甚至 数 百 万 行 
代码 组 成 。 因 此 ， 它 们 有 缺陷 (bug， 即 使 是 好 软件 ， 每 几 百 
或 几 千 行 代码 中 也 有 少量 缺陷 ) ， 因 此 它们 最 终 会 触发 一 个 
人 缺陷， 导致 朋 沉 。 它 们 也 有 内 存 泄露 。 即 使 很 小 的 内 存 汇 露 
也 会 导致 系统 内 存 不 足 并 裔 省 。 最 后 ， 在 分 布 式 系统 中 ， 客 
户 端 和 服务 嚣 之 间 存 在 网 络 。 如 果 网 络 行为 异常 [例如 ， 如 
果 它 被 分 割 (partitioned) ， 客 户 端 和 服务 器 在 工作 ， 但 不 
能 通信 ] ， 可 能 看 起 来 好 像 一 台 远程 机 器 月 尝 ， 但 实际 上 只 是 
目前 无 法 通过 网 络 访问 。 




















48.2 交 出 NFS 


最 早 且 相当 成 功 的 分 布 式 系统 之 一 是 由 Sun Microsystems 开 发 的 ， 被 
称 为 Sun 网 络 文件 系统 〈 或 NFS) [S86] 。 在 定义 NFS 时 ，Sun 采 取 了 一 种 
不 寻常 的 方法 : Sun 开 发 了 一 种 开放 协议 (open protocol) ， 它 只 是 
指定 了 客户 端 和 服务 器 用 于 通信 的 确切 消息 格式 ， 而 不 是 构建 专 有 的 
封闭 系统 。 不 同 的 团队 可 以 开发 自己 的 NFS 服 务 器 ， 从 而 在 NFS 市 场 中 
竞争 ， 同 时 保持 互 操 作 性 。NFS 服 务 器 〈 包 括 0racle/Sun 、NetApp 
IBM 等 ) 和 NFS 的 广泛 成 功 可 能 要 归功 于 这 种 “开放 市 
匆 ” A 由 y 。 











48.3 关注 点 : 简单 快速 的 服务 器 朋 泪 恢复 


本 章 将 讨论 经 典 的 NFS 协 议 《〈《 版 本 2， 即 NFSv2) ， 这 是 多 年 来 的 标准 。 
转 问 NFSv3 时 进行 了 小 的 更 改 ， 并 且 在 转 癌 NFSv4 时 进行 了 更 大 规模 的 


4 


在 NFSv2 中 ， 协 议 的 主要 目标 是 “简单 快速 的 服务 器 骨 尝 恢复 ”。 在 多 
客户 端 ， 单 服务 器 环境 中 ， 这 个 目标 非常 有 意义 。 服 务 器 关闭 〈 或 不 
可 用 ) 的 任何 一 分 钟 都 会 使 所 有 客户 端 计算 机 (及 其 用 户 ) 感 到 不 快 
和 无 效 。 因 此 ， 服 务 器 不 行 ， 整 个 系统 也 就 不 行 了 。 


48.4 人 快速 崩溃 恢复 的 关键 : 无 状态 


通过 设计 无 状态 (stateless) 协议 ，NFSv2 实 现 了 这 个 简单 的 目标 。 
根据 设计 ， 服 务 器 不 会 退 踪 每 个 客户 端 发 生 的 事情 。 例 如 ， 服 务 器 不 
知道 哪些 客户 端正 在 缓存 哪些 块 ， 或 者 哪些 文件 当前 在 每 个 客户 端 打 
开 ， 或 者 文件 的 当前 文件 指针 位 置 等 。 简 而 言 之 ， 服 务 器 不 会 奶 踪 客 
户 正 在 做 什么 。 实 际 上 ， 该 协议 的 设计 要 求 在 每 个 协议 请 求 中 提供 所 





有 需要 的 信息 ， 以 便 完 成 该 请 求 。 如 果 现 在 还 看 不 出 ， 下 面 更 详细 地 
讨论 该 协议 时 ， 这 种 无 状态 的 方法 会 更 有 意义 。 


作为 有 状态 (stateful， 非 无 状态 ) 协议 的 示例 ， 请 考虑 open () 系统 
调用 。 给 定 一 个 路 径 名 ，open 0 返回 一 个 文件 描述 符 “〈 一 个 整数 ) 。 
此 描述 符 用 于 后 续 的 read 0) 或 write 0 请求， 以 访问 各 种 文件 块 ， 如 图 
48. 3 所 示 的 应 用 程序 代码 〈 请 注意 ， 出 于 篇 幅 原 因 ， 这 里 省 略 了 对 系 
统 调用 的 正确 错误 检查 ) : 


char buffer{[MAX]; 
int fd = open("foo", O RDONLY); // get descriptor "fd" 


read (fd, buffer, MAX); // read MAX bytes from foo (via fd) 
read (fd, buffer, MAX); // read MAX bytes from foo 

read (fd, buffer, MAX); // read MAX bytes from foo 

close (fqd); // close file 


图 48. 3 ”客户 端 代码 ;从 文件 读 取 


现在 想象 一 下 ， 客 户 端 文件 系统 回 服 务 器 发 送 协议 消 轧 “打开 文件 foo 
并 给 我 一 个 描述 符 ”， 从 而 打开 文件 。 然 后 ， 文 件 服务 器 在 本 地 打开 
文件 ， 并 将 搬 述 符 发 送 回 客户 并 。 在 后 续 读 取 时 ， 客 户 端 应 用 程序 使 
用 该 描述 符 来 调用 read () 系统 调用 。 客 户 端 文件 系统 然后 在 给 文件 服 
务 器 的 消息 中 ， 传 递 该 描述 符 ， 说 “从 我 传 给 你 的 描述 符 所 指 的 文件 


中 》 读 一 些 字 节 So 


在 这 个 例子 中 ， 文 件 描述 符 是 客户 端 和 服务 器 之 间 的 一 部 分 共享 状态 
(shared state，0usterhout 称 为 分 布 式 状态 ，distributed state 
[091] ) 。 正 如 我 们 上 面 所 暗示 的 那样 ， 共 享 状态 使 肝 溃 恢复 变 得 复 
杂 。 想 象 一 下 ， 在 第 一 次 读 取 完成 后 ， 但 在 客户 端 发 出 第 二 次 读 取 之 
前 ， 服 务 器 有 骨 尝 。 服 务 器 启动 并 再 次 运行 后 ， 客 户 端 会 发 出 第 二 次 读 
取 。 遗 憾 的 是 ， 服 务 器 不 知道 fd 指 的 是 哪个 文件 。 该 信息 是 暂时 的 
(《 即 在 内 存 中 ) ， 因 此 在 服务 器 衣 溃 时 丢失 。 要 处 理 这 种 情况 ， 客 户 
端 和 服务 器 必须 具有 某 种 恢复 协议 (recovery protocol) ， 客 户 端 必 
须 确保 在 内 存 中 保存 足够 信息 ， 以 便 能 够 告诉 服务 器 ， 它 需要 知道 的 
信息 《〈 在 这 个 例子 中 ， 是 文件 描述 符 fd 指 同文 件 foo) 。 


考虑 到 有 状态 的 服务 器 必须 处 理 客 户 骨 演 的 情况 ， 事 情 会 变 得 更 糟 。 
例如 ， 想 象 一 下 ， 一 个 打开 文件 然后 崩 尝 的 客户 端 。open 0 在 服务 器 
上 用 掉 了 一 个 文件 描述 符 ， 服 务 器 怎么 知道 可 以 关闭 给 定 的 文件 呢 ? 


























在 正常 操作 中 ， 客 户 端 最 终 将 调用 close() ， 从 而 通知 服务 器 应 该 关闭 

该 文件 。 但 是 ， 当 客户 端 骨 溃 时 ， 服 务 器 永远 不 会 收 到 close 0) ， 因 此 

必须 注意 到 客户 端 已 月 误 ， 以 便 关 闭 文件 。 

出 于 这 些 原 因 ，NFS 的 设计 者 决定 采用 无 状态 方法 : 每 个 客户 站 操作 都 
含 完 成 请 求 所 需 的 所 有 信息 。 不 需要 花哨 的 般 溃 恢复 ， 服 务 髓 只 是 

再 次 开始 运行 ， 了 最 糟糕 的 情况 下 ， 客 户 问 可 能 必须 重 试 请 求 。 





48.5 NFSv2 协 议 


下 面 来 看 看 NFSv2 的 协议 定义 。 问 题 很 简单 : 


关键 问题 : 如何 定义 无 状态 文件 协议 


如 何 定义 网 络 协议 来 支持 无 状态 操作 ?显然 ， 像 open() 这 样 
的 有 状态 调用 不 应 该 讨论 。 人 但是， 客户 端 应 用 程序 会 调用 
open()、read()、write()、close() 和 其 他 标准 API 调 用 ， 来 
访问 文件 和 目录 。 因 此 ， 改 进 该 问题 : 如 何 定义 协议 ， 让 它 
既 无 状态 ， 又 支持 POSIX 文 件 系统 API? 





理解 NFS 协 议 设 计 的 一 个 关键 是 理解 文件 句柄 (file handle) 。 文 件 
i 因此 ， 许 多 协议 请 求 包括 一 个 文件 
吕 栅 。 


可 以 认为 文件 句柄 有 3 个 重要 组 件 : 卷 标识 符 、inode 号 和 世代 号 。 这 3 
项 一 起 构成 客户 希望 访问 的 文件 或 目录 的 唯一 标识 符 。 卷 标识 符 通 知 
服务 器 ， 请 求 指向 哪个 文件 系统 CNFS 服 务 器 可 以 导出 多 个 文件 系 
统 ) 。inode 号 告诉 服务 器 ， 请 求 访问 该 分 区 中 的 哪个 文件 。 最 后 ， 复 
用 inode 号 时 需要 世代 号 。 通 过 在 复 用 inode 号 时 递增 它 ， 服 务 嚣 确保 
具有 旧 文 件 句 柄 的 客户 端 不 会 意外 地 访问 新 分 配 的 文件 。 





图 48. 4 是 该 协议 的 一 些 重要 部 分 的 摘要 。 完 整 的 协议 可 在 其 他 地 方 获 
得 NFS 的 优秀 详细 概述 ， 请 参阅 Callaghan 的 书 LC00] ) 。 


FSPROC_ GETATTR 
expects: file handle 
returns: attributes 











FSPROC SETATTR 
expects: file handle, attributes 
returns: nothing 

FSPROC LOOKUP 
expects: directory file handle, name of file/directory to look up 
returns: file handle 

FSPROC_ READ 
expects: file handle, offset, count 
returns: data, attributes 

FSPROC WRITE 
expects: file handle, offset, count, data 
returns: attributes 

FSPROC CREATE 
expects: directory file handle, name of file, attributes 
returns: nothing 
FSPROC REMOVE 
expects: directory file handle, name of file to be removed 
returns: nothing 
FSPROC MKDIR 
expects: directory file handle, name of directory, attributes 
returns: file handle 
FSPROC RMDIR 
expects: directory file handle, name of directory to be removed 
returns: nothing 

FSPROC READDIR 
expects: directory handle, count of bytes to read, cookie 
returns: directory entries, cooki (to get mor ntries) 




























































































图 48. 4 NEFS 协 议 : 示例 


我 们 简单 强调 一 下 该 协议 的 重要 部 分 。 首 先 ，LOOKUP 协 议 消 轧 用 于 获 
取 文 件 句 柄 ， 然 后 用 于 访问 文件 数据 。 客 户 端 传递 目录 文件 句柄 和 要 
该 文件 〈 或 目录 ) 的 句柄 及 其 属性 将 从 服务 器 传 
递 回 客户 端 。 


例如 ， 假 设 客户 端 已 经 有 一 个 文件 系统 根 目录 的 目录 文件 句柄 〈7) 
[实际 上 ， 这 是 NFS 挂 载 协议 (mount protocol) ， 它 说 明 客 户 端 和 服 
务 器 开始 如 何 连 接 在 一 起 。 简 洁 起 见 ， 在 此 不 讨论 挂 载 协议 ] 。 如 果 客 
户 端 上 运行 的 应 用 程序 打开 文件 /foo. txt， 则 客户 端 文件 系统 会 向 服 
务 器 发 送 查 找 请 求 ， 并 同 其 传递 根 文件 句 顶 和 名 称 foo. txt。 如 果 成 
功 ， 将 返回 foo. txt 的 文件 句柄 〈 和 属性 ) 。 

















属性 就 是 文件 系统 退 踪 每 个 文件 的 元 信息 ， 包 括 文件 创建 时 间 、 上 次 
人 


有 了 文件 句柄 ， 客 户 端 可 以 对 一 个 文件 发 出 READ 和 了 ITE 协 议 消 息 ， 读 
取 和 写 入 该 文件 。READ 协 议 消 息 要 求 传 递 文件 句柄 ， 以 及 文件 中 的 偏 
移 量 和 要 读 取 的 字 节 数 。 然 后 ， 服 务 器 就 能 发 出 读 取 请 求 〈( 毕 竞 ， 该 
文件 句柄 告诉 了 服务 器 ， 从 哪个 卷 和 哪个 inode 读 取 ， 偶 移 量 和 字 节 数 
告诉 它 要 读 取 该 文件 的 哪些 字 节 ) ， 并 将 数据 返回 给 客户 端 (如 果 有 
故障 就 返回 错误 代码 ) 。 除 了 将 数据 从 客户 端 传递 到 服务 器 ， 并 返回 
成 功 代码 之 外 ， 了 中 ITE 的 处 理 方式 类 似 。 


最 后 一 个 有 趣 的 协议 消息 是 GETATTR 请 求 。 给 定 文件 句柄 ， 它 获取 该 文 
件 的 属性 ， 包 括 文 件 的 最 后 修改 时 间 。 我 们 将 在 NFSv2 中 看 到 ， 为 什么 
这 个 协议 请 求 很 重要 《你 能 猜 到 吗 ) 。 











48.6 从 协议 到 分 布 式 文件 系统 


希望 你 已 对 该 协议 如 何 转换 为 文件 系统 有 所 了 解 。 客 户 端 文件 系统 追 
踪 打 开 的 文件 ， 通 党 将 应 用 程序 的 请 求 转换 为 相关 的 协议 消息 集 。 服 
务 器 只 响应 每 个 协议 消 甩 ， 每 个 协议 消息 都 具有 完成 请 求 所 需 的 所 有 


yy 
信 已 O 


例如 ， 考 虑 一 个 读 取 文 件 的 简单 应 用 程序 。 表 48. 1 展示 了 应 用 程序 进 
行 的 系统 调用 ， 以 及 客户 端 文件 系统 和 文人 服务 器 响 应 此 类 调用 时 的 
行为 。 


关于 该 表 有 几 点 说 明 。 首 先 ， 请 注意 客户 端 如 何人 奶 踪 文件 访问 的 所 有 
相关 状态 〈state) ， 包 括 整数 文件 描述 符 到 NFS 文 件 句柄 的 映射 ， 以 
及 当前 的 文件 指针 。 这 让 客户 端 能 够 将 每 个 读 取 请 求 〈 你 可 能 注意 
到 ， 读 取 请 求 没 有 显 式 地 指定 读 取 的 偏 移 量 ) ， 转 换 为 正确 格式 的 读 
取 协 议 消 息 ， 该 消息 明确 地 告诉 服务 器 ， 从 文件 中 读 取 哪 些 字 节 。 成 
功 读 取 后 ， 客 户 端 更 新 当前 文件 位 置 ， 后 续 读 取 使 用 相同 的 文件 句 
柄 ， 但 偏 移 量 不 同 。 














其 次 ， 你 可 能 会 注意 到 ， 服 务 器 交互 发 生 的 位 置 。 当 文件 第 一 次 打开 
时 ， 客 户 端 文 件 系统 发 送 LOOKUP 请 求 消息 。 实 际 上 ， 如 果 必 须 访 问 一 
个 长 路 径 名 (例如 /home/remzi/foo.txt ) ， 客 户 端 将 发 送 3 个 
LOOKUP: 一 个 在 /目录 中 查找 home， 一 个 在 home 中 查找 remzi， 最 后 一 
个 在 remzi 中 查找 foo. txt。 





第 三 ， 你 可 能 会 注意 到 ， 每 个 服务 器 请 求 如 何 包含 完成 请 求 所 需 的 所 
有 信息 。 这 个 设计 对 于 从 服务 器 故障 中 优雅 地 恢复 的 能 力 至 关 重 要 ， 





接 下 来 将 更 详细 地 讨论 。 这 确保 服务 器 不 需要 状态 就 能 够 啊 应 请 求 。 
表 48. 1 读 取 文件 : 客户 端 和 文件 服务 器 的 操作 


fd = open(“/foo”,，…) ; 


发 送 LOOKUP (rootdir FH, “foo”) 








接收 LOOKUP 请 求 


在 root 目录 中 查找 “foo?” 





返回 foo 的 FH + 属性 


接收 LOOKUP 回 复 

在 打开 文件 表 中 分 配 文件 描述 符 在 表 中 保存 foo 的 FH 
保存 当前 文件 位 置 (0) 

向 应 用 程序 返回 文件 描述 符 




















read(fd, buffer, MAX): 
用 fd 检索 打开 文件 列表 


取得 NFS 文 件 句柄 (FH) 














使 用 当前 文件 位 置 作为 偏 移 量 
发 送 READ (FH，offset=0，count=MAX) 













接收 READ 回 复 


更 新 文件 位 置 (+ 读 取 的 字 节 数 ) 


设置 当前 文件 位 置 = MAX 








向 应 用 程序 返回 数据 /错误 代码 


read(fd，buffer，MAX) ; 


除了 偏 移 量 =MAX， 设 置 当 前 文件 位 置 = 2*MAX 外 ， 都 一 样 








read (fd, buffer, MAX): 


除了 偏 移 量 =2WMX， 歼 名 当 记 六 信 他 丰 = 和 MAX 外 ， 痢 一 样 





close (fd) ; 












清理 本 地 数据 结构 







释放 打开 文件 


表 中 的 描述 符 “fd” 






接收 READ 请 求 





1 用 FH 获取 卷 / inode 号 





从 磁盘 〈 或 缓存 ) 读 取 inode 


计算 块 位 置 〈 利 用 偏 移 量 ) 











从 磁盘 〈 或 缓存 ) 读 取 数 据 








提示 : 颇 等 性 很 强大 


在 构建 可 靠 的 系统 时 ， 窜 等 性 (idempotency) 是 一 种 有 用 的 
属性 。 如 果 一 次 操作 可 以 发 出 多 次 请 求 ， 那 么 处 理 该 操作 的 
失败 就 要 容易 得 多 。 你 只 要 重 斌 一下。 如果 操作 不 具有 和 窜 等 
性 ， 那 么 事情 就 会 更 困难 。 


48.7 利用 暴 等 操作 处 理 服务 器 故障 


当 客 户 端 癌 服务 器 发 送 消息 时 ， 有 时 候 不 会 收 到 回复 。 这 种 失败 可 能 
的 原因 很 多 。 在 某 些 情况 下 ， 网 络 可 能 会 丢弃 该 消息 。 网 络 确 实 会 丢 
失 消 息 ， 因 此 请 求 或 回复 可 能 会 丢失 ， 所 以 客户 端 永远 不 会 收 到 响 
应 ， 如 图 48. 5 所 示 。 


也 可 能 服务 器 已 般 溃 ， 因 此 无 法 啊 应 消息 。 稍 后 ， 服 务 器 将 重新 局 
动 ， 并 再 次 开始 运行 ， 但 所 有 请 求 都 已 丢失 。 在 所 有 这 些 情况 下 ， 客 
户 端 有 一 个 问题 : 如 果 服 务 器 没有 及 时 回复 ， 应 该 怎么 做 ? 


在 NFSv2 中 ， 客 户 端 以 唯一 、 统 一 和 优雅 的 方式 处 理 所 有 这 些 故障 : 就 
是 重 试 请 求 。 具 体 来 说 ， 在 发 送 请 求 之 后 ， 客 户 症 将 计时 器 设置 为 在 
指定 的 时 间 之 后 关闭 。 如 果 在 定时 占 关 闭 之 前 收 到 回复 ， 则 取消 定时 
器 ， 一 切 正 常 。 但 是 ， 如 果 在 收 到 任何 回复 之 前 计时 器 关闭 ， 则 客户 
端 会 假定 请 求 沿 未 处 理 ， 并 重新 发 送 。 如 果 服 务 器 回复 ， 一 切 都 很 
好 ， 客 户 端 已 经 漂亮 地 处 理 了 问题 。 


客户 端 之 所 以 能 够 简单 重 试 请 求 〈 不 论 什 么 情况 导致 了 故障 ) ， 是 因 
为 大 多 数 NFS 请 求 有 一 个 重要 的 特性 : 它们 是 早 等 的 〈idempotent) 。 
如 果 操 作 执 行 多 次 的 效果 与 执行 一 次 的 效果 相同 ， 该 操作 就 是 早 等 
的 。 例 如 ， 如 果 将 值 在 内 存 位 置 存储 3 次 ， 与 存储 一 次 一 样 。 因 此 























“将 值 存储 到 内 存 中 ”是 一 种 暴 等 操作 。 但 是 ， 如 果 将 计数 器 递增 3 
次 ， 它 的 数量 就 会 与 递增 一 次 不 同 。 因 此 ， 递 增 计数 器 不 是 虞 等 的 。 
更 一 般 地 说 ， 任 何 只 读 取 数 据 的 操作 显然 都 是 需 等 的 。 对 更 新 数据 的 
操作 必须 更 仔细 地 考虑 ， 才 能 确定 它 是 否 具 有 项 等 性 。 


NFS 中 骨 溃 恢复 的 核心 在 于 ， 大 多 数 常 见 操作 具有 时 等 性 。LOOKUP 和 
READ 请 求 是 简单 早 等 的 ， 因 为 它们 只 从 文件 服务 器 读 取 信息 而 不 更 新 
它 。 更 有 趣 的 是 ， 哺 ITE 请 求 也 是 早 等 的 。 例 如 ， 如 果 中 ITE 失 败 ， 客 
户 端 可 以 简单 地 重 试 它 。WRITE 消 息 包含 数据 、 计 数 和 (重要 的 ) 写 入 
数据 的 确切 偏 移 量 。 因 此 ， 可 以 重复 多 次 写 入 ， 因 为 多 次 写 入 的 结 

与 单 次 的 结果 相同 。 




















场景 1: 请 求 丢 类 


客户 请 服务 
[ 尖 汪 一 >X (没有 消息 ) 


场景 3; 回复 在 返回 服务 器 的 路 上 丢 类 


客户 阐 服务 器 
人 
[接收 请 求 | 
[处 理 请 求 ] 


图 48. 5 ”3 种 类 型 的 丢失 


通过 这 种 方式 ， 客 户 端 可 以 用 统一 的 方式 处 理 所 有 超时 。 如 果 WRITE 请 
求 丢 失 〈 上 面 的 第 一 种 情况 ) ， 客 户 端 将 重 试 它 ， 服 务 器 将 执行 写 
入 ， 一切 都 会 好 。 如 果 在 请 求 发 送 时 ， 服 务 器 恰好 关闭 ， 但 在 第 二 个 
请 求 发 送 时 ， 服 务 器 已 重启 并 继续 运行 ， 则 又 会 如 愿 执行 (第 二 种 情 
况 ) 。 最 后 ， 服 务 器 可 能 实际 上 收 到 了 WRITE 请 求 ， 发 出 写 入 磁盘 并 发 
送 回 复 。 此 回复 可 能 会 丢失 《第 三 种 情况 ) ， 导 致 客户 端 重新 发 送 请 
求 。 当 服务 器 再 次 收 到 请 求 时 ， 它 就 会 执行 相同 的 操作 : 将 数据 写 入 
磁盘 ， 并 回复 它 已 完成 该 操作 。 如 果 客 户 端 这 次 收 到 了 回复 ， 则 一 切 
正常 ， 因 此 客户 端 以 统一 的 方式 处 理 了 消息 丢失 和 服务 器 故障 。 漂 


PN 
高! 








一 点 补充 : 一 些 操 作 很 难 成 为 昭和 等 的 。 例 如 ， 当 你 尝试 创建 已 存在 的 
目录 时 ， 系 统 会 通知 你 mkdir 请 求 已 失败 。 因 此 ， 在 NFS 中 ， 如 果 文 件 
服务 器 收 到 MKDTIR 协 议 消息 并 成 功 执行 ， 但 回复 丢失 ， 则 客户 端 可 能 会 
重复 它 并 遇 到 该 故障 ， 实 际 上 该 操作 第 一 次 成 功 了 ， 只 是 在 重 试 时 失 
败 。 所 以 ， 生 活 并 不 完美 。 


提示 : 完美 是 好 的 敌人 (Voltairfe 和 定律 ) 


即使 你 设计 了 一 个 漂亮 的 系统 ， 有 时 候 并 非 所 有 的 特殊 情况 
都 像 你 期 望 的 那样 。 以 上 面 的 mkdir 为 例 ， 你 可 以 重新 设计 
mkdir， 让 它 具 有 不 同 的 语义 ， 从 而 让 它 成 为 梭 等 的 ( 想 想 你 
会 怎么 做 ) 。 但 是 ， 为 什么 要 这 么 麻烦 ? NFS 的 设计 理念 涵盖 
了 大 多 数 重要 情况 ， 它 使 系统 设计 在 故障 方面 简洁 明了 。 
此 ， 接 受 生活 并 不 完美 的 事实 ， 仍 然 构 建 系 统 ， 这 是 良好 工 
程 的 标志 。 显 然 ， 这 种 智慧 应 该 要 感谢 伏 尔 泰 ， 他 说 : “一 
个 聪明 的 意大利 人 说 ， 最 好 是 好 的 敌人 。” 因 此 我 们 称 之 为 
Voltaire 定 律 。 





48.8 提高 性 能 : 客户 端 缓存 





分 布 式 文件 系统 很 多 ， 这 有 很 多 原因 ， 但 将 所 有 读 写 请 求 都 通过 网 络 
发 送 ， 会 导致 严重 的 性 能 问题 : 网 络 速度 不 快 ， 特 别 是 与 本 地 内 存 或 
磁盘 相 比 。 因 此 ， 另 一 个 问题 是 : 如 何 才 能 改善 分 布 式 文 件 系 统 的 性 


全 已 
能 ? 


答案 你 可 能 已 经 猜 到 (看 到 上 面 的 节 标 题 ) ， 就 是 客户 端 缓存 
(caching) 。NFS 客 户 问 文件 系统 缓存 文件 数据 (和 元 数据 ， 。 因 
此 ， 虽 然 第 一 次 访问 是 昂贵 的 〈《 即 它 需 要 网 络 通 信 ) ， 但 后 续 访 问 很 
快 就 从 客户 端 内 存 中 得 到 服务 。 


缓存 还 可 用 作 写 入 的 临时 缓冲 区 。 当 客户 端 应 用 程序 写 入 文件 时 ， 客 
户 端 会 在 数据 写 入 服务 器 之 前 ， 将 数据 缓存 在 客户 端的 内 存 中 (与 数 
据 从 文件 服务 器 读 取 的 缓存 一 样 )。 这 种 写 缓冲 (write buffering) 
是 有 用 的 ， 因 为 它 将 应 用 程序 的 write() 延迟 与 实际 的 写 入 性 能 分 离 ， 
即 应 用 程序 对 write (的 调用 会 立即 成 功 〈 只 是 将 数据 放 入 客户 端 文 件 
系统 的 缓存 中 ) ， 只 是 稍 后 才 会 将 数据 写 入 文件 服务 器 。 


因此 ，NFS 客 户 痪 缓存 数据 和 性 能 通常 很 好 ， 我 们 成 功 了 ， 对 吧 ? 遗憾 
的 是 ， 并 没完 全 成 功 。 在 任何 系统 中 添加 缓存 ， 导 致 包含 多 个 客户 端 
缓存 ， 都 会 引入 一 个 巨大 且 有 趣 的 挑战 ， 我 们 称 之 为 缓存 一 致 性 问题 


(cache consistency problem) 。 

















48.9 缓存 一 致 性 问题 





利用 两 个 客户 端 和 一 个 服务 器 ， 可 以 很 好 地 展示 缓存 一 致 性 问题 。 想 
象 一 下 客户 端 C1 读 取 文 件 F， 并 将 文件 的 副本 保存 在 其 本 地 缓存 中 。 现 
在 假设 一 个 不 同 的 客户 端 C2 窗 盖 文 件 ， 从 而 改变 其 内 容 。 我 们 称 该 文 
件 的 新 版 本 为 FE (版 本 2) ， 或 F [v2]， 称 旧版 本 为 F [v1] ， 以 便 区 分 
两 者 。 最 后 ， 还 有 第 三 个 客户 端 53， 尚 未 访问 文件 F。 


你 可 能 会 看 到 即将 发 生 的 问题 〈 见 图 48.6) 。 实 际 上 ， 有 两 个 子 问 
题 。 第 一 个 子 问 题 是 ， 客 户 端 C2 可 能 将 它 的 写 入 缓存 一 段 时 间 ， 然 后 
再 将 它们 发 送 给 服务 器 。 在 这 种 情况 下 ， 当 FLv2j 位 于 C2 的 内 存 中 时 ， 
来 自 另 一 个 客户 端 〈 比 如 C3) 的 任何 对 F 的 访问 ， 都 会 获得 旧版 本 的 文 
件 (F[v1] ) 。 因 此 ， 在 客户 端 缓冲 写 入 ， 可 能 导致 其 他 客户 端 获得 文 














件 的 陈旧 版 本 ， 这 也 许 不 是 期 望 的 结果 。 实 际 上 ， 想 象 一 下 你 登录 机 
名 C2， 更 新 F， 然 后 登录 C3， 并 尝试 读 取 文件 ， 只 得 到 了 旧版 本 ! 这 当 
然 会 令 人 泪 形 。 因 此 ， 我 们 称 这 个 方面 的 缓存 一 致 性 问题 为 “更 新 可 
见 性 (update visibility) ”。 来 自 一 个 客户 端的 更 新 ， 什 么 时 候 被 
其 他 客户 端 看 见 ? 


Cl (0 C3 
缓存 : Flv] 缓存 : FIV2] 缓 人 #: 空 


服务 名 $ 


册 盘 ; 开始 是 FTv1] 
最 后 是 F[v2| 


图 48.6 ”缓存 一 致 性 问题 








缓存 一 致 性 的 第 二 个 子 问 题 是 陈旧 的 缓存 (stale cache) 。 在 这 种 情 
况 下 ，C2 最 终 将 它 的 写 入 发 送 给 文件 服务 器 ， 因 此 服务 器 具有 最 新 版 
本 (FLv2]〉。 但 是 ，C1 的 缓存 中 仍然 是 FLv1] 。 如 果 运 行 在 C1 上 的 程 
序 读 了 文件 fF， 它 将 获得 过 时 的 版 本 (F [Lvlj ) ， 而 不 是 最 新 的 版 本 
(F [v2])， 这 (通常 ) 不 是 期 望 的 结果 。 


NFSv2 实 现 以 两 种 方式 解决 了 这 些 绥 存 一 致 性 问题 。 首 先 ， 为 了 解决 更 
新 可 见 性 ， 客 户 端 实现 了 有 时 称 为 “关闭 时 刷新 ” (flush-on- 
close， 即 close-to-open) 的 一 致 性 语义 。 具 体 来 说 ， 当 应 用 程序 写 
入 文件 并 随后 关闭 文件 时 ， 客 户 端 将 所 有 更 新 《〈 即 缓存 中 的 脏 页面 ) 
刷新 到 服务 器 。 通 过 关闭 时 刷新 的 一 致 性 ，NFES 可 确保 后 续 从 另 一 个 节 
点 打开 文件 ， 会 看 到 最 新 的 文件 版 本 。 


其 次 ， 为 了 解决 陈旧 的 缓存 问题 ，NFSv2 客 户 端 会 先 检 查 文件 是 否 已 更 
改 ， 然 后 再 使 用 其 缓存 内 容 。 有 具体 来 说 ， 在 打开 文件 时 ， 客 户 端 文 件 
系统 会 发 出 GETATTR 请 求 ， 以 获取 文件 的 属性 。 重 要 的 是 ， 属 性 包含 有 














关 服 务 器 上 次 修改 文件 的 信息 。 如 果 文 件 修改 的 时 间 晚 于 文件 提取 到 
客户 端 缓存 的 时 间 ， 则 客户 端 会 让 文件 无 效 (invalidate) ， 因 此 将 
它 从 客户 端 缓存 中 删除 ， 并 确保 后 续 的 读 取 将 转向 服务 器 ， 取 得 该 文 
件 的 最 新 版 本 。 另 外 ， 如 果 客户 端 看 到 它 持 有 该 文件 的 最 新 版 本 ， 就 
会 继续 使 用 缓存 的 内 容 ， 从 而 提高 性 能 。 


当 Sun 最 初 的 团队 实现 陈旧 缓存 问题 的 这 个 解决 方案 时 ， 他 们 意识 到 一 

个 新 问题 。 突 然 ，NFS 服 务 器 充斥 着 GETATTR 请 求 。 一 个 好 的 工程 原 

则 ， 是 为 常见 情况 而 设计 ， 让 它 运作 良好 。 这 里， 尽管 常见 情况 是 文 

件 只 由 一 个 客户 端 访问 〈 可 能 反复 访问 ) ， 但 该 客户 端 必 须 一 直 向 服 

务 器 发 送 GETATTR 请 求 ， 以 确 没 人 改变 该 文件 。 客 户 因 此 “又 炸 ” 了 服 

PE 
医改 。 


为 了 解决 这 种 情况 (在 某 种 程度 上 ) ， 为 每 个 客户 端 添加 了 一 个 属性 
缓存 (attribute cache) 。 客 户 端 在 访问 文件 之 前 仍 会 验证 文件 ， 但 
大 多 数 情 况 下 只 会 查看 属性 缓存 以 获取 属性 。 首 次 访问 某 文 件 时 ， 该 
文件 的 属性 被 放 在 缓存 中 ， 然 后 在 一 定时 间 (例如 3s ) 后 超时 。 
此 ， 在 这 3s 内 ， 所 有 文件 访问 都 会 断定 使 用 缓存 的 文件 没有 问题 ， 并 
且 没 有 与 服务 器 的 网 络 通信 。 




















48. 10 评估 NFS 的 缓存 一 致 性 





关于 NFS 的 缓存 一 致 性 还 有 几 人 句 话 。 加 入 关闭 时 刷新 的 行为 是 因为 “有 
意义 ”， 但 带 来 了 一 定 的 性 能 问题 。 具 体 来 说 ， 如 果 在 客户 痢 上 创建 
临时 或 短期 文件 ， 然 后 很 快 删除 ， 它 仍 将 被 强制 写 到 服务 器 。 更 理想 
的 实现 可 能 会 将 这 些 短暂 的 文件 保留 在 内 存 中 ， 直 到 和 它们 被 删除 ， 从 
而 完全 消除 服务 器 交互 ， 提 高 性 能 。 


更 重要 的 是 ，NFS 加 入 属性 缓存 让 它 很 难 知道 或 推断 出 得 到 文件 的 确切 
版 本 。 有 时 你 会 得 到 最 新 版 本 ， 有 时 你 会 得 到 旧版 本 ， 因 为 属性 缓 丰 
没有 超时 ， 因 此 客户 端 很 高 兴 地 提供 了 客户 端 内 存 中 的 内 容 。 虽 然 这 
在 大 多 数 情 况 下 孝 没 问题 ， 但 它 偶尔 会 《现在 仍然 如 此 ! ) 导致 厅 
4 行为 。 








我 们 已 经 描述 了 NFS 客 户 着 缓存 的 奇怪 之 处 。 它 是 一 个 有 趣 的 例子 ， 其 
中 实现 的 细节 致力 于 定义 用 户 可 观察 的 语义 ， 而 不 是 相反 。 


48. 11 服务 器 端 写 缓冲 的 隐 含 意义 


我 们 的 重点 是 客户 并 缓存 ， 这 是 最 有 趣 的 问题 出 现 的 地 方 。 但 是 ，NFS 
服务 器 也 往往 配备 了 大 量 内 存 ， 因 此 它们 也 存在 缓存 问题 。 从 磁盘 读 
取 数 据 《〈《 和 元 数据 ) 时 ，NFS 服 务 器 会 将 其 保留 在 内 存 中 ， 后 续 读 取 这 
些 数 据 〈 和 元 数据 ) 不 会 访问 磁盘 ， 这 可 能 对 性 能 有 《小 ) 提升 。 


更 有 趣 的 是 写 缓冲 的 情况 。 在 强制 写 入 稳定 存储 《〈 即 磁盘 或 某 些 其 他 
持久 设备 ) 之 前 ，NFS 服 务 器 绝对 不 会 对 WRITE 协 议 请 求 返 回 成 功 。 虽 
然 他 们 可 以 将 数据 的 拷贝 放 在 服务 器 内 存 中 ， 但 对 中 ITE 协 议 请 求 癌 客 
户 端 返回 成 功 ， 可 能 会 导致 错误 的 行为 。 你 能 搞 清楚 为 什么 吗 ? 


答案 在 于 我 们 对 客户 端 如 何 处 理 服务 器 故障 的 假设 。 想 象 一 下 客户 端 
发 出 以 下 写 入 厅 列 ; 
write(fd, a buffer, size); // fill first block with a's 


writel(fd, b buffer, size); // fill second block with b's 
write(fd, c¢c buffer, size); // fill third block with c's 








这 些 写 入 履 盖 了 文件 的 3 个 块 ， 先 是 a， 然 后 是 b， 最 后 是 c。 因 此 ， 如 
果 文 件 最 初 看 起 来 像 这 样 : 


YYYYYVYYYYYYYYYYYYYYYYYYYYYYVYYYYVYYYYYYYYYYYYYYYYYYYVYYYYYYYYYYY 
玉芝 多 世 吕 EZ 





我 们 可 能 期 望 这 些 写 入 之 后 的 最 终结 果 是 这 样 : x、y 和 z 分 别 用 a、b 和 
c 履 盖 。 
QQaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa 


bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb 
CeeccececcececcecceeeceececececeeecceccceccececEeccececeeccececcceceecee 


现在 假设 ， 在 这 个 例子 中 ， 客 户 端的 3 个 写 入 作为 3 个 不 同 的 WRITE 协 议 
消息 ， 发 送 给 服务 器 。 假 设 服 务 器 接收 到 第 一 个 WRITE 消 息 ， 将 它 发 送 
到 磁盘 ， 并 向 客户 端 通知 成 功 。 现 在 假设 第 二 次 写 入 只 是 缓冲 在 内 存 
中 ， 服 务 器 在 强制 写 入 磁盘 之 前 ， 也 向 客户 端 报告 成 功 。 遗 憾 的 是 ， 
服务 器 在 写 入 磁盘 之 前 骨 沉 了。 服务器 快速 重启 ， 并 接收 第 三 个 写 请 
求 ， 该 请 求 也 成 功 了 。 


因此 ， 对 于 客户 端 ， 所 有 请 求 都 成 功 了 ， 但 我 们 很 尺 讶 文件 的 内 容 如 
下 s 


aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa 


YYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYYY “<“--- oops 
Ceeecceeeececeeeceeeceeeceeceeeceeccececeeceececececceceeeceececeee 





因为 服务 器 在 提交 到 磁盘 之 前 ， 告 诉 客户 端 第 二 次 写 入 成 功 ， 所 以 文 
件 中 会 留 下 一 个 旧 块 ， 这 对 于 某 些 应 用 程序 ， 可 能 是 灾难 性 的 。 


为 了 避免 这 个 问题 ，NFS 服 务 器 必须 在 通知 客户 端 成 功 之 前 ， 将 每 次 写 
入 提交 到 稳定 持久) 存储 。 这 样 做 可 以 让 客户 端 在 写 入 期 间 检测 服 
务 器 故障 ， 从 而 重 试 ， 直 到 它 最 终 成 功 。 这 样 做 确保 了 不 会 导致 前 面 
例子 中 混合 的 文件 内 容 。 


这 个 需求 ， 对 NFS 服 务 器 的 实现 带 来 一 个 问题 ， 即 写 入 性 能 ， 如 果 不 小 
心 ， 会 成 为 主要 的 性 能 瓶颈 。 实 际 上 ， 一 些 公 司 〈 例 如 Network 
Appliance) 的 出 现 ， 只 是 为 了 构建 一 个 可 以 快速 执行 号 入 的 NFS 服 务 
器 。 一 个 技巧 是 先 写 入 有 电池 备份 的 内 存 ， 从 而 快速 报告 中 ITE 请 求 成 
功 ， 而 不 用 担心 丢失 数据 ， 也 没有 必须 立即 写 入 磁盘 的 成 本 。 第 二 个 
技巧 是 采用 专门 为 快速 写 入 磁盘 而 设计 的 文件 系统 ， 如 果 你 最 后 需要 
这 样 做 [HLM94，R091]。 














48. 12 小结 


我 们 已 经 介绍 了 NFS 分 布 式 文件 系统 。NFS 的 核心 在 于 ， 服 务 器 的 故障 
要 能 简单 快速 地 恢复 。 操 作 的 贤 等 性 至 关 重 要 ， 因 为 客户 端 可 以 安全 
地 重 试 失 败 的 操作 ， 不 论 服 务 器 是 否 已 执行 该 请 求 ， 都 可 以 这 样 做 。 





我 们 还 看 到 ， 将 缓存 引入 多 客户 端 、 单 服务 器 的 系统 ， 如 何 会 让 事情 
变 得 复杂 。 有 具体 来 说 ， 系 统 必 须 解 决 缓存 一 致 性 问题 ， 才 能 合理 地 运 
行 。 但 是 ，NFS 以 稍微 特别 的 方式 来 解决 这 个 问题 ， 偶 尔 会 导致 你 看 到 
奇怪 的 行为 。 最 后 ， 我 们 看 到 了 服务 器 缓存 如 何 变 得 国手 : 对 服务 器 
在 返回 成 功 之 前 ， 必 须 强制 写 入 稳定 存储 《〈 人 否则 数据 可 能 会 


我 们 还 没有 谈 到 其 他 一 些 问 题 ， 这 些 问 题 肯 定 有 关 ， 尤 其 是 安全 问 
题 。 早 期 NFS 实 现 中 ， 安 全 性 非 芝 宽松。 客户 端的 任何 用 户 都 可 以 轻松 
伪装 成 其 他 用 户 ， 并 获得 对 几乎 任何 文件 的 访问 权限 。 后 来 集成 了 更 
严肃 的 身份 验证 服务 〈 例 如 ，Kerberos [NT94] ) ， 解 决 了 这 些 明 显 的 
人 缺陷。 








[S86] “The Sun Network File System: Design, Implementation 
and Experience” Russel Sandberg 


USENIX Summer 1986 
最 初 的 NFS 论 文 。 阅 读 这 些 美妙 的 想法 是 个 好 主意 。 


[INT94] “Kerberos: An Authentication Service for Computer 
Networks” 


B. Clifford Neuman, Theodore Ts”o 
IEEE Commnunications，32(9) :33-38，September 1994 


Kerberos 是 一 种 早期 且 极 具 影响 力 的 身份 验证 服务 。 我 们 可 能 应 该 在 
某 个 时 候 为 它 写 上 一 章 ……: 


[P+94] “NFS Version 3: Design and Implementation” 








Brian Pawlowski, Chet Juszczak, Peter Staubach, Carl Smith, 
Diane Lebel, Dave Hitz USENIX Summer 1994, pages 137-152 


NFS 版 本 3 的 小 修改 。 
[P+00] “The NFS version 4 protocol” 
Brian Pawlowski, David Noveck, David Robinson, Robert Thurlow 


2nd JInternational System Administration and Networking 
Conference (SANE 2000) 


毫 无 疑问 ， 这 是 有 史 以 来 关于 NFS 的 优秀 论文 。 

[CO0] “NFS Illustrated” Brent Callaghan 

Addison-Wesley Professional Computing Series, 2000 

一 个 很 棒 的 NFS 参 考 ， 每 个 协议 都 讲 得 非常 彻底 和 详细 。 

[Sun89] “NFS: Network File System Protocol Specification?” 
Sun Microsystems, lnc. Request for Comments: 1094, March 1989 
可 怕 的 规范 。 如 有 果 你 必须 读 ， 就 读 它 。 

[091] “The Role of Distributed State” John K. OQusterhout 

很 少 引 用 的 关于 分 布 式 状态 的 讨论 ， 对 问题 和 挑战 有 更 广 的 视角 。 


[HLM94] “File System Design for an NFS File Server 
Appliance” Dave Hitz, James Lau, Michael Malcolm 





USENIX Winter 1994. San Francisco, California, 1994 


Hitz 等 人 受到 以 前 日 志 结 构 文件 系统 工作 的 极 大 影响 。 





[RO91] “The Design and Implementation of the Log-structured 
File System”Mendel Rosenblum, John OQusterhout 


Symposium on Operating Systems Principles (SOSP), 1991 


又 是 LFS。 不 ，LFS， 学 无 止境 。 


第 49 章 ”Andrew 文件 系统 (AFS) 


Andrew 文 件 系统 由 卡 内 基 梅 隆 大 学 〈CMU) 的 研究 人 员 于 20 世 纪 80 年 代 
[th88] 引 入。 该 项 目 由 卡 内 基 梅 隆 大 学 著名 教授 人 
Satyanarayanan (简称 为 Satya ) 领导 ， 主 要 目标 很 简单 : 扩展 
(scale) 。 有 具体 来 说 ， 如 何 设计 分 布 式 文件 系统 〈 如 服务 器 ) 可 以 文 
持 尽 可 能 多 的 客户 端 


有 趣 的 是 ， 设 计 和 实现 的 许多 方面 都 会 影响 可 扩展 性 。 最 重要 的 是 客 
户 端 和 服务 器 之 间 的 协议 (protocol) 设计 。 例 如 ， 在 NFS 中 ， 协 议 强 
制 客 户 端 定期 检查 服务 器 ， 以 确定 缓存 的 内 容 是 否 已 更 改 。 因 为 每 次 
检查 都 使 用 服务 器 资源 (包括 CPU 和 网 络 带宽 ) ， 所 以 频繁 的 检查 会 限 
制服 务 器 啊 应 的 客户 端 数量 ， 从 而 限制 可 扩展 性 。 


AFS 与 NFS 的 不 同 之 处 也 在 于 ， 从 一 开始 ， 合 理 的 、 用 户 可 见 的 行为 就 
是 首要 考虑 的 问题 。 在 NFS 中 ， 绥 存 一 致 性 很 难 描 述 ， 因 为 它 直接 依赖 
于 低级 实现 细节 ， 包 括 客户 端 缓存 超时 间隔 。 在 AFS$ 中 ， 绥 存 一 致 性 很 
0 
一 致 副本 。 














49. 1 AFS 版 本 1 


我 们 将 讨论 两 个 版 本 的 AFS [H+88，S+85] 。 第 一 个 版 本 (我 们 称 之 为 
AFSv1， 但 实际 上 原来 的 系统 被 称 为 ITC 分 布 式 文件 系统 [S+85] ) 已 经 
有 了 一 些 基 本 的 设计 ， 但 没有 像 期 望 那样 可 扩展 ， 这 导致 了 重新 设计 
和 最 终 协 议 〈 我 们 称 之 为 AFSv2， 或 就 是 AFS) [H+88] 。 现 在 讨论 第 一 
个 版 本 。 


所 有 AFS 版 本 的 基本 原则 之 一 ， 是 在 访问 文件 的 客户 端 计算 机 的 本 地 磁 
盘 〈local disk) 上 ， 进 行 全 文件 缓存 (whole-file caching) 。 当 
open() 文件 时 ， 将 从 服务 器 获取 整个 文件 (如 果 存 在 )， 并 存储 在 本 





地 磁盘 上 的 文件 中 。 后 续 应 用 程序 read0) 和 write (操作 被 重 定向 到 存 
储 文 件 的 本 地 文件 系统 。 因 此 ， 这 些 操作 不 需要 网 络 通信 ， 速 度 很 
快 。 最 后 ， 在 closeO 时 ， 文 件 〈 如 果 已 被 修改 ) 被 写 回 服务 器 。 注 
意 ， 与 NFS 的 明显 不 同 ，NFS 缓 存 块 〈 不 是 整个 文件 ， 虽 然 NFS 当 然 可 以 
人 








让 我 们 进一步 了 解 细节 。 当 客户 端 应 用 程序 首次 调用 open 0 时 ，AFS 客 
户 端 代码 CAFS 设 计 者 称 之 为 Venus) 将 向 服务 器 发 送 Fetch 协 议 消 息 。 
Fetch 协议 消息 会 将 所 需 文 件 的 整个 路 径 名 ( 例 
如 /home/remzi/notes. txt ) 传递 给 文件 服务 器 (它们 称 为 Vice 的 
组 ) ， 然 后 将 沿 着 路 人 径 名 ， 查 找 所 需 的 文件 ， 并 将 整个 文件 发 送 回 客 
户 端 。 然 后 ， 客 户 端 代码 将 文件 缓存 在 客户 端的 本 地 磁盘 上 “将 它 写 
入 本 地 磁盘 ) 。 如 上 上 所 述 ， 后 续 的 read() 和 write () 系统 调用 在 AFS 中 
是 严格 本 地 的 (不 与 服务 器 进行 通信 ) 。 它 们 只 是 重 定 同 到 文件 的 本 
地 副本 。 因 为 read() 和 write 0 调用 束 像 调用 本 地 文件 系统 一 样 ， 一 旦 
访问 了 一 个 块 ， 它 也 可 以 缓存 在 客户 端 内 存 中 。 因 此 ，AFS 还 使 用 客户 
端 内 存 来 缓存 它 在 本 地 磁盘 中 的 块 副本 。 最 后 ，AFS 客 户 端 完成 后 检查 
文件 是 否 已 被 修改 〈 即 它 被 打开 并 写 入 ) 。 如 果 被 修改 ， 它 会 用 Store 
协议 消息 ， 将 新 版 本 刷 写 回 服 务 器 ， 将 整个 文件 和 路 径 名 发 送 到 服务 
器 以 进行 持久 存储 。 


下 次 访问 该 文件 时 ，AFSvl1 的 效率 会 更 高 。 具 体 来 说 ， 客 户 端 代码 首先 
联系 服务 器 《使 用 TestAuth 协 议 消息 ) ， 以 确定 文件 是 否 已 更 改 。 如 
果 未 更 改 ， 客 户 端 将 使 用 本 地 缓存 的 副本 ， 从 而 避免 了 网 络 传输 ， 提 
高 了 性 能 。 表 49. 1 展示 了 AFSvl 中 的 一 些 协 议 消息 。 请 注意 ， 协 议 的 早 

















期 版 本 仅 缓存 文件 内 容 。 例 如 ， 目 录 只 保存 在 服务 器 上 。 
表 49. 1 AFSvl 协 议 的 要 点 


TestAuth | 测试 文件 是 否 已 改变 〈 用 于 验证 缓存 条 目的 有 效 性 ) 


GetFileStat | 取得 文件 的 状态 信息 


Fetch 获取 文件 的 内 容 











Store 将 文件 存 入 服务 器 


SetFileStat | 设置 文件 的 状态 信息 
ListDir 丈 











I 出 目录 的 内 容 








49.2 版 本 1 的 问题 


第 一 版 AFS 的 一 些 关 键 问 题 ， 促 使 设计 人 员 重 新 考虑 他 们 的 文件 系统 。 
为 了 详细 研究 这 些 问 题 ，AFS 的 设计 人 员 花 费 了 大 量 时 间 来 测量 他 们 已 
有 的 原型 ， 以 找 出 问题 所 在 。 这 样 的 实验 是 一 件 好 事 。 测 量 
(measurement ) 是 理解 系统 如 何 工 作 ， 以 及 如 何 改进 系统 的 关键 。 实 
际 数据 有 助 于 取代 直觉 ， 让 解构 系统 成 为 具体 的 科学 。 在 他 们 的 研究 
中 ， 作 者 发 现 了 AFSv1 的 两 个 主要 问题 。 


提示 : 先 测 量 后 构建 (Patterson 和 定律 ) 


我 们 的 顾问 之 一 ，David Patterson ( 因 RISC 和 RAID 而 著 
名 ) ， 过 去 总 是 鼓励 我 们 先 测量 系统 并 揭示 问题 ， 再 构建 新 
系统 来 修复 所 述 问题 。 通 过 使 用 实验 证 据 而 不 是 直觉 ， 你 可 
以 将 系统 构建 过 程 变 成 更 科学 的 尝试 。 这 样 做 也 具有 让 你 在 
开发 改进 版 本 之 前 ， 先 考虑 如 何 准确 测量 系统 的 优势 。 当 你 
最 终 开 始 构建 新 系统 时 ， 结 果 两 件 事情 会 变 得 更 好 : 首先 ， 
你 有 证 据 表 明 你 正在 解决 一 个 真正 的 问题 。 第 二 ， 你 现在 有 
办 法 测量 新 系统 ， 以 显示 它 实 际 上 改进 了 现 有 技术 。 因 此 我 
们 称 之 为 Patterson 定 律 。 














。 路径 查 找 成 本 过 高 。 执 行 Fetch 或 Store 协 议 请 求 时 ， 客 户 端 将 整 
个 路 径 名 例如 /home/remzi/notes. txt) 传递 给 服务 器 。 为 了 访 
问 文 件 ， 服 务 器 必须 执行 完整 的 路 径 名 人 遍历， 首先 查看 根 目 录 以 


查找 home， 然 后 在 home 中 查找 remzi， 依 此 类 推 ， 一 直 沿 着 路 径直 
到 最 终 定 位 所 需 的 文件 。 由 于 许多 客户 端 同时 访问 服务 器 ，AFS 的 
60 S00 0 
客户 端 发 出 太 多 TestAuth 协 议 消息 。 与 NFS 及 其 过 多 的 GETATTR 协 
议 消息 非常 相似 ，AFSv1 用 TestAuth 协 议 信 息 ， 生 成 大 量 流量 ， 以 
检查 本 地 文件 (或 其 状态 信息 ) 是 否 有 效 。 因 此 ， 服 务 器 花费 大 
量 时 间 ， 告 诉 客户 端 是 否 可 以 使 用 文件 的 缓存 副本 。 大 多 数 时 
候 ， 答 案 是 文件 没有 改变 。 


AFSvl 实 际 上 还 存在 另外 两 个 问题 : 服务 器 之 间 的 负载 不 均衡 ， 服 务 器 
对 每 个 客户 端 使 用 一 个 不 同 的 进程 ， 从 而 导致 上 下 文 切换 和 其 他 开 
销 。 通 过 引入 卷 (volume ) ， 解 决 了 负载 不 平衡 问题 。 管 理 员 可 以 跨 
服务 器 移动 卷 ， 以 平衡 负载 。 通 过 使 用 线程 而 不 是 进程 构建 服务 器 ， 
在 AFSv2 中 解决 了 上 下 文 切换 问题 。 但 是 ， 限 于 篇 幅 ， 这 里 集中 讨论 上 
述 主要 的 两 个 协议 问题 ， 这 些 问 题 限 制 了 系统 的 扩展 。 




















49.3 改进 协议 


上 述 两 个 问题 限制 了 AFS 的 可 扩展 性 。 服 务 器 CPU 成 为 系统 的 瓶颈 ， 每 
个 服务 器 只 能 服务 20 个 客户 端 而 不 会 过 载 。 服 务 器 收 到 太 多 的 
TestAuth 消 有 息 ， 当 他 们 收 到 Fetch 或 Store 消 恩 时 ， 花 费 了 太 多 时 间 查 
找 目 录 层 次 结构 。 因 此 ，AFS 设 计 师 面临 一 个 问题 。 


关键 问题 : 如何 设计 一 个 可 扩展 的 文件 协议 


如 何 重新 设计 协议 ， 让 服务 器 交互 最 少 ， 即 如 何 减少 
TestAuth 消 息 的 数量 ? 进一步 ， 如 何 设计 协议 ， 让 这 些 服务 
器 交互 高 效 ? 通过 解决 这 两 个 问题 ， 新 的 协议 将 导致 可 扩展 
性 更 好 的 AFS 版 本 。 


49.4 AFS 版 本 2 


AFSv2 引 入 了 回调 (callback) 的 概念 ， 以 减少 客户 端 /服务 器 交互 的 
数量 。 回 调 就 是 服务 器 对 客户 端的 承 诡 ， 当 客户 端 缓存 的 文件 被 修改 
时 ， 服 务 器 将 通知 客户 端 。 通 过 将 此 状态 〈state) 添加 到 服务 器 ， 客 
户 端 不 再 需要 联系 服务 器 ， 以 查 明 缓存 的 文件 是 否 仍然 有 效 。 实 际 
上 ， 它 假定 文件 有 效 ， 直 到 服务 器 另 有 说 明 为 止 。 这 里 类 似 于 轮 询 
(polling) 与 中 断 (interrupt) 。 











AFSv2 还 引入 了 文件 标识 符 (File Identifier，FID) 的 概念 《类似 于 
NFS 文 件 句柄 ) ， 蔡 代 路 径 名 ， 来 指定 客户 端 感 兴趣 的 文件 。AFS 中 的 
FID 包 括 卷 标识 符 、 文 件 标识 符 和 “全 局 唯一 标识 符 ” 用 于 在 删除 文 
件 时 复 用 卷 和 文件 ID ) 。 因 此 ， 不 是 将 整个 路 径 名 发 送 到 服务 器 ， 并 
让 服务 器 沿 着 路 径 名 来 查找 所 需 的 文件 ， 而 是 客户 端 会 沿 着 路 径 名 查 
找 ， 每 次 一 个 ， 绥 存 结果 ， 从 而 有 望 减 少 服务 器 上 的 负载 。 


例如 ， 如 果 客 户 端 访问 文件 /home/remzi/notes. txt， 并 且 home 是 挂 载 
在 /上 的 AFS 目 录 〈 即 /是 本 地 根 目 录 ， 但 home 及 其 子 目录 在 AFS 中 ) ， 
则 客户 端 将 先 获 取 home 的 目录 内 容 ， 将 它们 放 在 本 地 磁盘 缓存 中 ， 然 
后 在 home 上 设置 回调 。 然 后 ， 客 户 端 将 获取 目录 remzi， 将 其 放 入 本 地 
磁盘 缓存 ， 并 在 服务 器 上 设置 remzi 的 回调 。 最 后 ， 客 户 端 将 获取 
notes. txt， 将 此 营 规 文件 缓存 在 本 地 磁盘 中 ， 设 置 回 调 ， 最 后 将 文件 
描述 符 返 回 给 调用 应 用 程序 。 有 关 摘 要 ， 参 见 表 49. 2。 


然而 ， 与 NFS 的 关键 区 别 在 于 ， 每 次 获取 目录 或 文件 时 ，AFS 客 户 端 都 
会 与 服务 器 建立 回调 ， 从 而 确保 服务 器 通知 客户 端 ， 其 缓存 状态 发 生 
变化 。 好 处 是 显而易见 的 : 尽管 第 一 次 访问 /home/remzi/notes. txt 会 
生成 许多 客户 端 一 服务 器 消息 (如 上 所 述 ) ， 但 它 也 会 为 所 有 目录 以 
及 文件 notes. txt 建 立 回 调 ， 因 此 后 续 访 问 完全 是 本 地 的 ， 根 本 不 需要 
服务 器 交互 。 因 此 ， 在 客户 端 绥 存 文件 的 常见 情况 下 ，AFS 的 行为 几乎 
与 基于 本 地 磁盘 的 文件 系统 相同 。 如 果 多 次 访问 一 个 文件 ， 则 第 二 次 
访问 应 该 与 本 地 访问 文件 一 样 快 。 


表 49. 2 读 取 文件 : 客户 端 和 文件 服务 器 操作 


| TT | 






































客户 端 (C1) | 服务 器 


fd = open( “/home/remzi/notes. txt” ,**); 


发 送 Fetch (home FID, “remzi”) 


接收 Fetch 请 求 
在 home 目 录 中 查找 remzi 
对 remzi 建 六 callback (C1) 


返回 remzi 的 内 容 和 FID 


接收 Fetch 回 复 





将 remzi 写 入 本 地 磁盘 缓存 
记录 remzi 的 回调 状态 


发 送 Fetch (remzi FID, “notes. txt” ) 


接收 Fetch 请 求 


在 remzi 目录 中 查找 notes. txt 





对 notes. txt 建 六 callback (C1) 


返回 notes. txt 的 内 容 和 FID 


接收 Fetch 回 复 





将 notes. txt 写 入 本 地 磁盘 缓存 


记录 notes. txt 的 回调 状态 


本 地 open () 缓存 的 notes. txt 


向 应 用 程序 返回 文件 描述 符 














read(fd，buffer，MAX) ; 
执行 本 地 read () 缓存 副本 


close (fd): 






执行 本 地 close () 缓存 副本 


如 果 文件 已 改变 ， 刷 新 到 服务 器 





fd = open( “/home/remzi/notes. txt” ,***); 
Foreach dir (home, remzi) 
if (callback (dir) == VALID) 


使 用 本 地 副本 执行 lookup (dir) 


if (callback (notes. txt) == VALID) 


open 本 地 缓存 副本 


补充 缓存 一 致 性 不 能 解决 所 有 问题 


在 讨论 分 布 式 文件 系统 时 ， 很 多 都 是 关于 文件 系统 提供 的 组 
存 一 致 性 。 但 是 ， 关 于 多 个 客户 端 访问 文件 ， 这 种 基本 一 致 


性 并 未 解决 所 有 问题 。 例 如 ， 如 果 要 构建 代码 存储 库 ， 并 且 
有 多 个 客户 端 检 入 和 检 出 代码 ， 则 不 能 简单 地 依赖 底层 文件 
系统 来 为 你 完成 所 有 工作 。 实 际 上 ， 你 必须 使 用 显 式 的 文件 
级 锁 (file-level locking) ， 以 确保 在 发 生 此 类 并 发 访问 
时 ， 发 生 “ 正 确 ” 的 事情 。 事 实 上 ， 任 何 真 正 关心 并 发 更 新 
的 应 用 程序 ， 都 会 增加 额外 的 机 制 来 处 理 冲 突 。 本 章 和 第 48 
章 中 描述 的 基本 一 致 性 主要 用 于 随意 使 用 ， 例 如 ， 当 用 户 在 
不 同 的 客户 端 登录 时 ， 他 们 和 希望 看 到 文件 的 某 个 合理 版 本 。 

On 会 让 自己 陷入 挫败 、 失 望 和 泪 流 满面 
I 注 度 。 








49.5 缓存 一 致 性 





讨论 NFS 时 ， 我 们 考虑 了 缓存 一 致 性 的 两 个 方面 : 更 新 可 见 性 (update 
visibility) 和 缓存 陈旧 (cache staleness) 。 对 于 更 新 可 见 性 ， 问 
题 是 : 服务 器 何 时 用 新 版 本 的 文件 进行 更 新 ? 对 于 缓存 陈旧 ， 问 题 
是 : 一 旦 服务 器 有 新 版 本 ， 客 户 端 看 到 新 版 本 而 不 是 旧版 本 缓存 副 
本 ， 需 要 多 长 时 间 ? 


由 于 回调 和 全 文件 缓存 ，AFS 提 供 的 缓存 一 致 性 易于 描述 和 理解 。 有 两 
个 重要 的 情况 需要 考虑 : 不 同 机 器 上 进程 的 一 致 性 ， 以 及 同一 台 机 器 
上 进程 的 一 致 性 。 


在 不 同 的 计算 机 之 间 ，AFS 让 更 新 在 服务 器 上 可 见 ， 并 在 同一 时 间 使 绥 
存 的 副本 无 效 ， 即 在 更 新 的 文件 被 关闭 时 。 客 户 端 打 开 一 个 文件 ， 然 
后 写 入 《可 能 重复 写 入 ) 。 当 它 最 终 关 闭 时 ， 新 文件 被 刷新 到 服务 器 
(因此 可 见 ) 。 然 后 ， 服 务 器 中 断 任 何 拥有 组 存 副 本 的 客户 端的 回 
调 ， 从 而 确保 客户 端 不 再 读 取 文件 的 过 时 副本 。 在 这 些 客户 端 上 的 后 
续 打 开 ， 需 要 从 服务 器 重新 获取 该 文件 的 新 版 本 。 


对 于 这 个 简单 模型 ，AFS 对 同一 人 台 机 器 上 的 不 同 进程 进行 了 例外 处 理 。 
在 这 种 情况 下 ， 对 文件 的 写 入 对 于 其 他 本 地 进程 是 立即 可 见 的 《进程 
不 必 等 到 文件 关闭 ， 就 能 查看 其 最 新 更 新 版 本 ) 。 这 让 使 用 单个 机 器 














完全 符合 你 的 预期 ， 因 为 此 行为 基于 典型 的 UNIX 语 义 。 只 有 切换 到 不 
同 的 机 器 时 ， 你 才 会 发 现 更 一 般 的 AFS 一 致 性 机 制 。 


有 一 个 有 趣 的 跨 机 器 场景 值得 进一步 讨论 。 有 具体 来 说 ， 在 极 少数 情况 
下 ， 不同 机 器 上 的 进程 会 同时 修改 文件 ，AFS 自 然 会 采用 所 谓 的 “最 后 
写 入 者 胜出 ”方法 (last writer win， 也 许 应 该 称 为 “最 后 关闭 者 胜 
出 ”，last closer win) 。 具 体 来 说 ， 无 论 哪个 客户 端 最 后 调用 
close() ， 将 最 后 更 新 服务 器 上 的 整个 文件 ， 因 此 将 成 为 “胜出 ” 文 
件 ， 即 保留 在 服务 器 上 ， 供 其 他 人 查看 。 结 果 是 文件 完全 由 一 个 客户 
端 或 另 一 个 客户 端 生成 。 请 注意 与 基于 块 的 协议 〈 如 NFS) 的 区 别 : 在 
NFS 中 ， 当 每 个 客户 端 更 新 文件 时 ， 可 能 会 将 各 个 块 的 写 入 刷新 到 服务 
器 ， 因 此 服务 器 上 的 最 终 文件 最 终 可 能 会 混合 为 来 自 两 个 客户 的 更 
新 。 在 许多 情况 下 ， 这 样 的 混合 文件 输出 没有 多 大 意义 ， 例 如 ， 想 象 
一 个 JPEG 图 像 被 两 个 客户 端 分 段 修 改 ， 导 致 的 混合 写 入 不 太 可 能 构成 
有 效 的 JPEG。 


在 表 49. 3 中 可 以 看 到 ， 展 示 其 中 一 些 不 同 场景 的 时 间 线 。 这 些 列 展示 
了 Client1 上 的 两 个 进程 (P1 和 P2) 的 行为 及 其 缓存 状态 ，Client2 上 
的 一 个 进程 (P3) 及 其 缓存 状态 ， 以 及 服务 器 (Server ) ， 它 们 都 在 
操作 一 个 名 为 的 F 文 件 。 对 于 服务 器 ， 该 表 只 展示 了 左边 的 操作 完成 后 
该 文件 的 内 容 。 仔 细 查 看 ， 看 看 你 是 否 能 理解 每 次 读 取 的 返回 结果 的 
































原因 。 如 果 想 不 通 ， 右 侧 的 “评论 ”字段 对 你 会 有 所 帮助 。 
表 49.3 缓存 一 致 性 时 间 线 
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49.6 月 淡 恢复 


从 上 面 的 描述 中 ， 你 可 能 会 感 党， 骨 洽 恢复 比 NES 更 复杂 。 你 是 对 的 。 

例如 ， 假 设 有 一 小 段 时 间 ， 服务 器 (S) 无 法 联系 客户 端 CC1) 比方 
说 ， 客 户 端 C1 正 在 重新 启动 。 当 C1 不 可 用 时 ，S 可 能 试图 向 它 发 送 一 个 
或 多 个 回调 撤销 消 轧 。 例 如 ， 假 设 C1 在 其 本 地 磁盘 上 缓存 了 文件 FE， 然 
后 C2〔 男 一 个 客户 端 ) 更 新 了 F， 从 而 导致 $ 向 绥 存 该 文件 的 所 有 客户 
端 发 送 消 息 ， 以 便 将 它 从 本 地 缓存 中 删除 。 因 为 C1 在 重新 局 动 时 可 能 
会 丢失 这 些 关 键 消息 ， 所 以 在 重新 加 入 系统 时 ，C1 应 该 将 其 所 有 缓存 
内 容 视 为 可 疑 。 因 此 ， 在 下 次 访问 文件 F 时 ，C1 应 首先 回 服 务 器 《使 用 
TestAuth 协 议 消 息 ) 询问 ， 其 文件 F 的 缓存 副本 是 否 仍然 有 效 。 如 果 是 
这 样 ，C1 可 以 使 用 它 。 如 果 不 是 ，C1 应 该 从 服务 器 获取 更 新 的 版 本 。 


骨 尝 后 服务 器 恢复 也 更 复杂 。 问 题 是 回调 被 保存 在 内 存 中 。 因 此 ， 妆 
服务 器 重新 启动 时 ， 它 不 知道 哪个 客户 端 机 器 具有 哪些 文件 。 因 此 ， 
人 在 服 务 器 重新 启动 时 ， 服 务 器 的 每 个 客户 端 必须 意识 到 服务 器 已 崩 
沉 ， 并 将 其 所 有 缓存 内 容 视 为 可 疑 ， 并 且 (如 上 所 述 ) 在 使 用 之 前 重 
新 检查 文件 的 有 效 性 。 因 此 ， 服 务 器 裔 省 是 一 件 大 事 ， 因 为 必须 确保 
每 个 客户 端 及 时 了 解 朋 涡 ， 或 者 冒 着 客户 端 访 问 陈旧 文件 的 风险 。 有 
很 多 方法 可 以 实现 这 种 恢复 。 例 如 ， 让 服务 器 在 每 个 客户 病 启 动 并 再 
次 运行 时 向 每 个 客户 端 发 送 消 轧 《说 “不 要 信任 你 的 缓存 内 























容 ! ”) ， 或 让 客户 端 定期 检查 服务 器 是 否 处 于 活动 状态 (利用 心跳 
(heartbeat) 消息 ， 正 如 其 名 ) 。 如 你 所 见 ， 构 建 更 具 可 扩展 性 和 合 
理性 的 缓存 模型 需要 付出 代价 。 使 用 NFS， 客 户 端 很 少 注意 到 服务 器 出 


VE 
7 员 。 


49.7 AFSv2 的 扩展 性 和 性 能 


有 了 新 协议 ， 人 们 对 AFSv2 进 行 了 测量 ， 发 现 它 比 原来 的 版 本 更 具 可 扩 
展 性 。 实 际 上 ， 每 合 服务 器 可 以 文 持 大 约 50 个 客户 端 〈 而 不 是 仅仅 20 
个 ) 。 男 一 个 好 处 是 客户 端 性 能 通常 非常 接近 本 地 性 能 ， 因 为 在 通常 
bag. 所 有 文件 访问 都 是 本 地 的 ， 文件 读 取 通 常 转 到 本 地 磁盘 缓存 

可 能 还 有 本 地 内 存 ) 。 只 有 当 客 户 症 创建 新 文件 或 写 入 现 有 文件 
S| 才 需 要 向 服务 器 发 送 Store 消 息 ， 从 而 用 新 内 容 更 新 文件 。 


对 于 常见 的 文件 系统 访问 场景 ， 通 过 与 NES 进行 比较 ， 可 以 对 AFS 的 性 
能 有 所 了 解 。 表 49. 4 展示 了 定性 比较 的 结果 。 


表 49.4 比较 : AFS 与 NFS 
































在 表 中 ， 我 们 分 析 了 不 同 大 小 的 文件 的 典型 读 写 模式 。 小 文件 中 有 WN 
块 ， 中 等 文件 有 WW 个 块 ， 大 文件 有 WW 块 。 假 设 中 小 型 文件 可 以 放 入 客户 
端的 内 存 ， 大 文件 可 以 放 入 本 地 磁盘 ， 但 不 能 放 入 客户 端 内 存 。 


为 了 便于 分 析 ， 我 们 还 假设 ， 跨 网 络 访问 远程 服务 器 上 的 文件 块 ， 需 
要 的 时 间 为 记 er。 访问 本 地 内 存 需要 ew， 访问 本 地 磁盘 需要 Zurske 一 


般 假 设 是 > Lfag > oi 


最 后 ， 我 们 假设 第 一 次 访问 文件 没有 任何 缓存 命中 。 如 果 相 关 届 速 绥 
存 具 有 足够 容量 来 保存 文件 ， 则 假设 后 续 文 件 访 问 〈 即 “重新 读 
取 ”) 将 在 高 速 缓存 中 命中 。 


该 表 的 列 展示 了 特定 操作 《〈 例 如， 小 文件 顺序 读 取 ) 在 NFS 或 AFS 上 的 
大 致 时 间 。 最 右 侧 的 列 展示 了 AFS 与 NFS 的 比值 。 


我 们 有 以 下 观察 结果 。 首 先 ， 在 许多 情况 下 ， 每 个 系统 的 性 能 大 致 相 
当 。 例 如 ， 首 次 读 取 文件 时 《〈 即 工作 负载 1、3、5) ， 从 远程 服务 器 获 
取 文 件 的 时 间 占 主要 部 分 ， 并 且 两 个 系统 上 差不多 。 在 这 种 情况 下 ， 
你 可 能 会 认为 AFS 会 更 慢 ， 因 为 它 必须 将 文件 号 入 本 地 磁盘 。 但 是 ， 这 
些 写 入 由 本 地 (客户 端 ) 文件 系统 缓存 来 缓冲 ， 因 此 上 述 成 本 可 能 不 
明显 。 同 样 ， 你 可 能 认为 从 本 地 绥 存 副本 读 取 AFS 会 更 慢 ， 因 为 AFS 会 
将 缓存 副本 存储 在 磁盘 上 。 但 是 ，AFS 再 次 受益 于 本 地 文件 系统 缓存 。 
读 取 AFS 可 能 会 命中 客户 端 内 存 缓存 ， 性 能 与 NFS 类 似 。 


























其 次 ， 在 大 文件 顺序 重新 读 取 时 《工作 负载 6) ， 出 现 了 有 趣 的 差异 。 
由 于 AFS 具 有 大 型 本 地 磁盘 缓存 ， 因 此 当 再 次 访问 该 文件 时 ， 它 将 从 磁 
盘 缓存 中 访问 该 文件 。 相 反 ，NFS 只 能 在 客户 端 内 存 中 缓存 块 。 结 果 ， 
如 果 重 新 读 取 大 文件 〈 即 比 本 地 内 存 大 的 文件 ) ， 则 NFS 客 户 端 将 不 得 
不 从 远程 服务 器 重新 获取 整个 文件 。 因 此 ， 假 设 远程 访问 确实 比 本 地 
磁盘 慢 ，AFS 在 这 种 情况 下 比 NFS 快 一 倍 。 我 们 还 注意 到 ， 在 这 种 情况 
下 ，NFS 会 增加 服务 器 负载 ， 这 也 会 对 扩展 产生 影响 。 


第 三 ， 我 们 注意 到 ，“【 新 文件 的 ) 顺序 写 入 应 该 在 两 个 系统 上 性 能 差 
不 多 《工作 负载 8、9) 。 在 这 种 情况 下 ，AFS 会 将 文件 写 入 本 地 缓存 副 
本 。 当 文件 天 闭 时 ，AFS 客 户 端 将 根据 协议 强制 写 入 服务 器 。NFS 将 绥 
冲 写 入 客户 端 内 存 ， 可 能 由 于 客户 端 内 存 压力 ， 会 强制 将 某 些 块 写 入 
服务 器 ， 但 在 文件 关闭 时 肯定 会 将 它们 写 入 服务 器 ， 以 保持 NFS 的 关闭 
时 刷新 的 一 致 性 。 你 可 能 认为 AFS 在 这 里 会 变 慢 ， 因 为 它 会 将 所 有 数据 
写 入 本 地 磁盘 。 但 是 ， 要 意识 到 它 正 在 写 入 本 地 文件 系统 。 这 些 写 入 
首先 提交 到 页 面 缓存 ， 并 且 只 是 稍 后 《在 后 人 台 ) 提交 到 磁盘 ， 因 此 AFS 
利用 了 客户 站 操作 系统 内 存 缓存 基础 结构 的 优势 ， 提 高 了 性 能 。 


第 四 ， 我 们 注意 到 AFS 在 顺序 文件 覆盖 (工作 负载 10， 上 表现 较 差 。 之 
前 ， 我 们 假设 写 入 的 工作 负载 也 会 创建 一 个 新 文件 。 在 这 种 情况 下 ， 
文件 已 存在 ， 然 后 被 覆盖 。 对 于 AFS 来 说 ， 履 盖 可 能 是 一 个 特别 糟糕 的 
情况 ， 因 为 客户 端 先 完整 地 提取 旧 文件 ， 只 是 为 了 后 来 覆盖 它 。 相 
反 ，NFS 只 会 覆盖 块 ， 从 而 避免 了 初始 的 〈 无 用 ) 读 取 [11。 


最 后 ， 访 问 大 型 文件 中 的 一 小 部 分 数据 的 工作 负载 ， 在 NES 上 比 AFS 执 
行 得 更 好 《工作 负载 7?、11) 。 在 这 些 情况 下 ，AFS 协 议 在 文件 打开 时 
获取 整个 文件 。 遗 憾 的 是 ， 只 进行 了 一 次 小 的 读 写 操作 。 更 糟糕 的 
是 ， 如 果 文 件 被 修改 ， 整 个 文件 将 被 写 回 服务 器 ， 从 而 使 性 能 影响 加 
倍 。NFS 作 为 基于 块 的 协议 ， 执 行 的 1/0 与 读 取 或 写 入 的 大 小 成 比例 。 


总 的 来 说 ， 我 们 看 到 NFS 和 AFS 做 出 了 不 同 的 假设 ， 并 且 因 此 实现 了 不 
同 的 性 能 结果 ， 这 不 意外 。 这 些 差 异 是 否 重 要 ， 总 是 要 看 工作 负载 。 









































49.8 AFS: 其 他 改进 


就 像 我 们 在 介绍 Berkeley FFS 添加 了 符号 链接 和 许多 其 他 功能 ) 时 
看 到 的 那样 ，AFS 的 设计 人 员 在 构建 系统 时 借 此 机 会 添加 了 许多 功能 ， 
使 系统 更 易于 使 用 和 管理 。 例 如 ，AFS 为 客户 端 提 供 了 真正 的 全 局 命名 
空间 ， 从 而 确保 所 有 文件 在 所 有 客户 端 计算 机 上 以 相同 的 方式 命名 。 
相 比 之 下 ，NFS 人 允许 每 个 客户 端 以 它们 喜欢 的 任何 方式 挂 载 NFS 服 务 
髓 ， 因 此 只 有 通过 公约 《以 及 大 量 的 管理 工作 ) ， 才 能 让 文件 在 不 同 
客户 端 上 有 相似 的 名 字 。 








补充 : 工作 负载 的 重要 性 


评估 任何 系统 都 有 一 个 挑战 : 选择 工作 负载 (workload) 。 
由 于 计算 机 系统 以 多 种 不 同 的 方式 使 用 ， 因 此 有 多 种 工作 负 
载 可 供 选择 。 存 储 系统 设计 人 员 应 该 如 何 确定 哪些 工作 负载 
很 重要 ， 以 便 做 出 合理 的 设计 决 集 ? 


鉴于 他 们 在 测量 文件 系统 使 用 方式 方面 的 经 验 ，AFS 的 设计 者 
做 出 了 某 些 工作 负载 假设 。 上 共 体 来 说 ， 他 们 认为 大 多 数 文 件 
不 会 经 常 共享 ， 而 是 按 顺 序 完整 地 访问 。 鉴 于 这 些 假设 ，AFS 
设计 非常 有 意义 。 


但 是 ， 这 些 假设 并 非 总 是 正确 。 人 例如， 想象 一 个 应 用 程序 ， 
它 定期 将 信息 退 加 到 日 志 中 。 这 些小 的 日 志 写 入 会 将 少量 数 
据 添 加 到 现 有 的 大 型 文件 中 ， 这 对 AFS 来 说 是 个 问题 。 还 存在 
6 1 0 
新 。 


要 了 人 解 什么 类 型 的 工作 负载 常见 ， 一 种 方法 是 通过 人 们 已 经 
进行 的 各 种 研究 。 请 参考 这 些 研究 [B+91，H+11，R+00， 
V99]， 看 看 工作 量 分 析 得 好 例子 ， 包 括 AFS 的 回顾 [H+88]。 











AFS 也 认真 对 竺 安全 性 ， 采 用 了 一 些 机 制 来 验证 用 户 ， 确 保 如 果 用 户 需 
和 
寺 非 常 原始 。 


AFS 还 包含 了 灵活 的 、 用 户 管理 的 访问 控制 功能 。 因 此 ， 在 使 用 AFS 
时 ， 用 户 可 以 很 好 地 控制 谁 可 以 访问 哪些 文件 。 与 大 多 数 UNIX 文 件 系 
统一 样 ，NFS 对 此 类 共享 的 支持 要 少 得 多 。 


最 后 ， 如 前 所 述 ，AFS 添 加 了 一 些 工具 ， 让 系统 管理 员 可 以 更 简单 地 管 
理 服务 器 。 在 考虑 系统 管理 方面 ，AFS 遥 遥 领 先 。 





49.9 小 结 


AFS 告 诉 我 们 ， 构 建 分 布 式 文件 系统 与 我 们 在 NFS 中 看 到 的 完全 不 同 。 
AFS 的 协议 设计 特别 重要 。 通 过 让 服务 器 交互 最 少 〈 通 过 全 文件 缓存 和 
回调 ) ， 每 个 服务 器 可 以 支持 许多 客户 端 ， 从 而 减少 管理 特定 站 点 所 
需 的 服务 器 数量 。 许 多 其 他 功能 ， 包 括 单一 命名 空间 、 安 全 性 和 访问 
控制 列表 ， 让 AFS 非 常 好 用 。AFS 提 供 的 一 致 性 模型 易于 理解 和 推断 ， 
不 会 导致 偶尔 在 NFS 中 看 到 的 奇怪 行为 。 


也 许 很 不 幸 ，AFS 可 能 在 走 下 坡 路 。 由 于 NFS 是 一 个 开放 标准 ， 许 多 不 
同 的 供应 商都 支持 它 ， 它 与 CIFS (基于 Windows 的 分 布 式 文件 系统 协 
议 ) 一 起 ， 在 市 场 上 占据 了 主导 地 位 。 虽 然 人 们 仍 不 时 看 到 AFS 安 装 
(例如 在 各 种 教育 机 构 ， 包 括 威斯康星 大 学 ) ， 但 唯一 持久 的 影响 可 
能 来 自 AFS 的 想法 ， 而 不 是 实际 的 系统 本 身 。 实 际 上 ，NFSv4 现 在 添加 
(例如 ，“open” 协 议 消 息 ) ， 因 此 与 基本 AFS 协 议 越 来 
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作业 


本 节 引 入 了 afs.py， 这 是 一 个 简单 的 AFS 模 拟 器 ， 可 用 于 增强 你 对 
Andrew 文 件 系统 工作 原理 的 理解 。 阅 读 README 文 件 ， 以 获取 更 多 详细 


信息 。 
问题 


1. 运行 一 些 简单 的 场景 ， 以 确保 你 可 以 预测 客户 端 将 读 取 哪些 值 。 改 
变 随机 种 子 标志 (-s) ， 看 看 是 耕 可 以 追踪 并 预测 存储 在 文件 中 的 中 
间 值 和 最 终 值 。 还 可 以 改变 文件 数 (-f) ， 客 户 端 数 0-C) 和 读 取 比 
率 〈(-T， 介 于 0 到 1 之 间 ) ， 这 样 更 有 挑战 。 你 可 能 还 想 生 成 稍 长 的 追 
踪 ， 记 录 更 有 趣 的 交互 ， 例 如 (-n 2 或 更 高 ) 。 


2. 现在 执行 相同 的 操作 ， 看 看 是 否 可 以 预测 AFS 服 务 器 发 起 的 每 个 回 
调 。 答 试 使 用 不 同 的 随机 种 子 ， 并 确保 使 用 高 级 别 的 详细 反馈 《 例 
如 ，-d 3) ， 来 查看 当 你 让 程序 计算 答案 时 《使 用 -c) ， 何 时 发 生 回 
We 
是 什么 ? 











3， 与 上 面 类 似 ， 运 行 一 些 不 同 的 随机 种 子 ， 看 看 你 是 否 可 以 预测 每 一 
步 的 确切 缓存 状态 。 用 -c 和 -d 7 运行 ， 可 以 观察 到 缓存 状态 。 


4. 现在 让 我 们 构建 一 些 特定 的 工作 负载 。 用 -A oal:wl:cl, oal:rl:cl 
标志 运行 该 模拟 程序 。 在 用 随机 调度 程序 运行 时 ， 客 户 端 1 在 读 取 文件 
a 时 ， 观 察 到 的 不 同 可 能 值 是 什么 (尝试 不 同 的 随机 种 子 ， 看 看 不 同 的 
结果 ) ? 在 两 个 客户 端 操作 的 所 有 可 能 的 调度 重 琶 中 ， 有 多 少 导致 客 
户 端 1 读 取 值 1， 有 多 少 读 取 值 0? 


5. 现在 让 我 们 构建 一 些 具体 的 调度 。 当 使 用 -A oal:wl:cl, oal:rl:cl 
标志 运行 时 ， 也 用 以 下 调度 方案 来 运行 : -S 01，-S$ 100011，-S 
011100， 以 及 其 他 你 可 以 想到 的 调度 方案 。 客 户 端 1 读 到 什么 值 ? 

6. 现在 使 用 此 工作 负载 来 运行 -A oal:wl:cl, oal:wl:cl， 并 按 上 述 


方式 更 改 调度 方式 。 用 -S 011100 运 行 时 会 发 生 什 么 ”用 -S 010011 时 
怎么 样 ? 确定 文件 的 最 终 值 有 什么 重要 意义 ? 























第 50 章 ”关于 分 布 式 的 总 结对 话 


学 生 : 咽 ， 真 快 。 在 我 看 来 ， 真 是 太 快 了 ! 


教授 : 是 的 ， 分 布 式 系 统 又 复杂 又 酷 ， 值 得 学 习 。 但 不 属于 本 书 《〈 或 
本 课程 ) 的 范围 。 


学 生 : 那 太 粳 糕 了 ， 我 想 了 解 更 多 ! 但 我 确实 学 到 了 一 些 知 识 。 
教授 : 比如 ? 

学 生 : 喝 ， 一 切 都 会 失败 。 

教授 : 好 的 开始 。 


学 生 : 但 是 通过 拥有 大 量 这 些 东 西 〈 无 论 是 磁盘 、 机 器 还 是 其 他 东 
西 ) ， 可 以 隐藏 出 现 的 大 部 分 失败 。 


教授 ， 继 续 ! 
学 生 : 像 重 试 这 样 的 一 些 基 本 技巧 非常 有 用 。 
教授 : 确实 。 


学 生 : 你 必须 仔细 考虑 协议 : 机 器 之 间 交 换 的 确切 数据 位 。 协 议 可 以 
影响 一 切 ， 包 括 系 统 如 何 啊 应 故障 ， 以 及 它们 的 可 扩展 性 。 


教授 : 你 真是 学 得 越 来 越 好 。 

学 生 : 谢谢 ! 您 本 人 也 不 是 差劲 的 老师 ! 
教授 : 非常 感谢 。 

学 生 : 那么 本 书 结束 了 吗 ? 
































教授 : 
学 生 
教授 : 
学 生 : 个 
教授 : 
学 生 
教授 : 
学 生 
教授 : 


学 生 : 


I 


教授 : 


[1]. 


我 不 确定 。 他 们 没有 给 我 任何 通知 。 
我 也 不 确定 。 我 们 走 吧 。 
好 的 。 


不 ， 你 先 。 
教授 先 请 。 

不 ， 你 先 ， 我 在 你 之 后 。 

(被 激怒 ) 那 好 ! 

(等 待 ) …… 那 你 为 什么 不 离开 ? 

我 不 知道 怎么 做 。 事 实证 明 ， 我 唯一 能 做 的 就 是 参与 这 些 对 





我 也 是 。 现 在 你 已 经 学 到 了 我 们 的 最 后 一 课 …… 


我 们 假设 NFS 读 取 是 按照 块 大 小 和 块 对 齐 的 。 如 果 不 是 ，NFS 客 户 


端 也 必须 先 读 取 该 块 。 我 们 还 假设 文件 未 使 用 0_TRUNC 标 志 打 开 。 如 果 
是 ，AFS 中 的 初始 打开 也 不 会 获取 即将 被 截断 的 文件 内 容 。 


附录 A ”关于 虚拟 机 监视 占 的 对 话 


学 生 : 所 以 现在 我 们 被 困 在 附录 中 了 ， 对 吧 ? 
教授 : 是 的 ， 就 在 你 认为 事情 变 得 更 糟 的 时 候 。 
学 生 : 咽 ， 我 们 要 谈 什么 ? 


教授 : 一 个 重生 的 老话 题 : 虚拟 机 监视 器 (virtual machine 
monitor) ， 也 称 为 虚拟 机 管理 程序 (hypervisor) 。 

学 生 : 哦 ， 就 像 VMware 一 样 ? 这 很 酷 ， 我 以 前 用 过 这 种 软件 。 

教授 : 确实 很 酷 。 我 们 将 了 解 VMM 如 何在 系统 中 添加 另 一 层 虚 拟 化 ， 这 
一 系统 在 操作 系统 本 身 之 下 ! 真 的 ， 状 狂 而 惊人 的 东西 。 


学 生 : 听 起 来 很 好 。 为 什么 不 在 本 书 的 前 面部 分 中 包含 本 章 ， 然 后 包 
含 虚 拟 化 ? 真 的 不 应 该 放 在 那里 吗 ? 


教授 : 我 想 ， 这 超过 了 我 们 的 职责 范围 。 但 我 猜 是 因为 : 那里 己 有 很 
多 材料 。 通 过 将 善于 VMM 的 这 一 小 部 分 移 到 附录 中 ， 教 师 可 以 选择 是 包 
含 它 还 是 跳 过 它 。 但 我 确实 认为 它 应 该 被 包括 在 内 ， 因 为 如 果 你 能 理 
解 VMM 是 如 何 工 作 的 ， 那 就 真 的 非常 了 解 虚拟 化 了 。 


学 生 : 好 吧 ， 让 我 们 开始 工作 吧 ! 








附录 B 虚拟 机 监视 器 


B.1 简介 


多 年 前 ，IBM 将 昂贵 的 大 型 机 出 售 给 大 型 组 织 ， 出 现 了 一 个 问题 : 如 果 
组 织 希 望 同 时 在 机 器 上 运行 不 同 的 操作 系统 ， 该 怎么 办 ? 有 些 应 用 程 
序 是 在 一 个 操作 系统 上 开发 的 ， 有 些 是 在 其 他 操作 系统 上 开发 的 ， 
此 出 现 了 该 问题 。 作 为 一 种 解决 方案 ，IBM 以 虚拟 机 监视 器 (Virtual 
Machine Monitor，VMM) (也 称 为 管理 程序 ，hypervisor) [G74j] 的 形 
式 ， 引 入 了 男 一 个 间接 层 。 


具体 来 说 ， 监 视 器 位 于 一 个 或 多 个 操作 系统 和 硬件 之 间 ， 并 为 每 个 运 
行 的 操作 系统 提供 控制 机 器 的 假象 。 然 而 ， 在 幕后 ， 实 际 上 是 监视 器 
在 控制 硬件 ， 并 必须 在 机 器 的 物理 资源 上 为 运行 的 0S 提 供 多 路 复 用 。 
实际 上 ，VMM 作 为 操作 系统 的 操作 系统 ， 但 在 低 得 多 层次 上 。 操 作 系 统 
ee 因此 ， 透 明度 (transparency) 是 VMM 的 
主要 目标 。 


因此 ， 我 们 发 现 自 己 处 于 一 个 有 趣 的 位 置 : 到 目前 为 止 操作 系统 已 经 
成 为 假象 提供 大 师 ， 其 统 毫 无 怀疑 的 应 用 程序 ， 让 它们 认为 拥有 上 自己 
私有 的 CPU 和 大 型 虚拟 内 存 ， 同 时 在 应 用 程序 之 间 进 行 切 换 ， 并 共享 内 
存 。 现 在 ， 我 们 必须 再 次 这 样 做 ， 但 这 次 是 在 操作 系统 之 下 ， 它 曾经 
拥有 控制 权 。VMM 如 何 为 每 个 运行 在 其 上 的 操作 系统 创建 这 种 假象 ? 














关键 问题 : 如 何在 操作 系统 之 下 虚拟 化 机 器 


虚拟 机 监视 器 必须 透明 地 虚拟 化 操作 系统 下 的 机 器 。 这 样 做 
需要 什么 技术 ? 


B.2 动机 : 为何 用 VMM 


今天 ， 由 于 多 种 原因 ，VMM 再 次 流行 起 来 。 服 务 器 合并 就 是 一 个 原因 。 
在 许多 设置 中 ， 人 们 在 运行 不 同 操作 系统 〈 甚 至 0S 版 本 ) 的 不 同 机 器 
上 运行 服务 ， 但 每 台 机 器 的 利用 率 都 不 高 。 在 这 种 情况 下 ， 虚 拟 化 使 
管理 员 能 够 将 多 个 操作 系统 合并 〈consolidate) 到 更 少 的 硬件 平台 
上 ， 从 而 降低 成 本 并 简化 管理 。 


虚拟 化 在 桌面 上 也 变 得 流行 ， 因 为 许多 用 户 希 望 运行 一 个 操作 系统 
(比如 Linux 或 mac0S X) ， 但 仍然 可 以 访问 不 同 平 台 上 的 本 机 应 用 程 
序 〈 比 如 Windows) 。 这 种 功能 (functionality) 上 的 改进 也 是 一 个 
很 好 的 理由 。 


男 一 个 原因 是 测试 和 调试 。 当 开发 者 在 一 个 主 平台 上 编写 代码 时 ， 他 
们 通常 希望 在 许多 不 同 平台 上 进行 调试 和 测试 。 在 实际 环境 中 ， 他 们 
要 将 软件 部 萌 到 这 些 平 台 上 。 因 此 ， 通 过 让 开发 人 员 能 够 在 一 台 计 算 
机 上 运行 多 种 操作 系统 类 型 和 版 本 ， 虚 拟 化 可 以 轻松 实现 这 一 点 。 


虚拟 化 的 复兴 始 于 20 世 纪 90 年 代 中 后 期 ， 由 Mendel Rosenblum 教 授 领 
导 的 斯 坦 福 大 学 的 一 组 研究 人 员 推 动 。 他 的 团队 在 用 于 MIPS 处 理 器 的 
虚拟 机 监视 器 Disco [B+97] 上 的 工作 是 早期 的 努力 ， 它 使 VMM 重 新 焕发 
活力 ， 并 最 终 使 该 团队 成 为 VMware [V98] 的 创始 人 ， 该 公司 现在 是 虚 
拟 化 技术 的 市 场 领 导 者 。 在 本 章 中 ， 我 们 将 讨论 Disco 的 主要 技术 ， 并 
尝试 通过 该 窗口 来 了 解 虚拟 化 的 工作 原理 。 














B. 3 虚拟 化 CPU 


为 了 在 虚拟 机 监视 器 上 运行 虚拟 机 (virtual machine， 即 0S 及 其 应 用 
程序 ) ， 使 用 的 基本 技术 是 受 限 直接 执行 (1limited direct 
execution) ， 这 是 我 们 在 讨论 操作 系统 如 何 虚 拟 化 CPU 时 看 到 的 技 
术 。 因 此 ， 如 果 想 在 VMM 之 上 “启动 ”新 操作 系统 ， 只 需 跳 转 到 第 一 条 
旨 令 的 地 址 ， 并 让 操作 系统 开始 运行 ， 就 这 么 简单 。 








假设 我 们 在 单个 处 理 器 上 运行 ， 并 且 和 希望 在 两 个 虚拟 机 之 间 进 行 多 路 
复 用 ， 即 在 两 个 操作 系统 和 它们 各 目的 应 用 程序 之 间 进 行 多 路 复 用 。 
非常 类 似 于 操作 系统 在 运行 进程 之 间 切 换 的 方式 (上下文 切换 ， 
context Switch) ， 虚 拟 机 监视 器 必须 在 运行 的 虚拟 机 之 间 执 行 机 器 
切换 (machine Switch) 。 因 此 ， 当 执行 这 样 的 切换 时 ，VMM 必 须 保 存 
一 个 0S 的 整个 机 器 状态 〈 包 括 寄存 器 ，PC， 并 且 与 上 下 文 切 换 不 同 ， 
包括 所 有 特权 人 硬件 状态 ) ， 恢 复 待 运行 虚拟 机 的 机 器 状态 ， 然 后 跳 转 
到 待 运行 虚 拟 机 的 PE， 完成 切换 。 注 意 ， 待 运行 VM 的 PC 可 能 在 0S 本 身 
内 〈 系 统 正 在 执行 系统 调用 ) ， 或 可 能 束 在 该 09 上 运行 的 进程 内 “〈 用 
户 模式 应 用 程序 〉。 


当 正 在 运行 的 应 用 程序 或 操作 系统 尝试 执行 某 种 特权 操作 

(privileged operation) 时 ， 我 们 会 遇 到 一 些 稍微 环 手 的 问题 。 例 
如 ， 在 具有 软件 管理 的 TLB 的 系统 上 ， 操 作 系 统 将 使 用 特殊 的 特权 指 
令 ， 用 一 个 地 址 转换 来 更 新 TLB， 再 重新 执行 遇 到 TLB 未 命中 的 指令 。 
在 虚拟 化 环境 中 ， 不 允许 操作 系统 执行 特权 指令 ， 因 为 它 控制 机 器 而 
不 是 其 下 的 VMM。 因 此 ，VMM 必 须 以 某 种 方式 拦截 执行 特权 操作 的 学 
试 ， 从 而 保持 对 机 器 的 控制 。 


如 果 在 给 定 0S 上 的 运行 进程 尝试 进行 系统 调用 ， 会 出 现 VMM 必 须 如 何 介 
入 某 些 操作 的 简单 场景 。 例 如 ， 进 程 可 能 尝试 对 一 个 文件 调用 
open () ， 或 者 可 能 调用 read() ， 从 中 获取 数据 ， 或 者 可 能 正在 调用 
fork (来 创建 新 进程 。 在 没有 虚拟 化 的 系统 中 ， 通 过 特殊 指令 实现 系 
统 调用 。 在 MIPS 上 ， 它 是 一 个 陷阱 〈trap) 指令 。 在 x86 上 ， 它 是 带 有 
参数 0x80 的 int (中断) 指令。 下 面 是 FreeBSD 上 的 open 库 调用 [B00] 
(回想 一 下 ， 你 的 C 代 码 首 先 对 C 库 进行 库 调 用 ， 然 后 执行 正确 的 汇编 
序列 ， 实 际 发 出 陷阱 指令 并 进行 系统 调用 ) : 


open : 
push dword mode 




















push dword flags 
push dword path 
mov eax, 5 

push eax 

int 80h 


在 基于 UNIX 的 系统 上 ，open0 只 接受 3 个 参数 : int open(char * 
path，int flags，mode t mode)。 你 可 以 在 上 面 的 代码 中 看 到 open 0 
库 调 用 是 如 何 实现 的 ， 首先 ， 将 数据 推 入 栈 〈 模 式 ， 标 志 ， 路 径 ) ， 
然后 将 5 推 入 栈 ， 然 后 调用 int 80h， 它 将 控制 权 转 移 到 内 核 。 如 果 你 





想 知 道 ，5 是 用 户 模 式 应 用 程序 与 FreeBSD 中 open () 系统 调用 的 内 核 之 
间 预 先 商定 的 约定 。 不 同 的 系统 调用 会 在 调用 陷阱 指令 int 之 前 将 不 同 
的 数字 放 在 栈 上 (在 相同 的 位 置 ) ， 从 而 进行 系统 调用 上 1。 


执行 陷阱 指令 时 ， 正 如 之 前 讨论 的 那样 ， 它 通常 会 做 很 多 有 趣 的 事 
情 。 在 我 们 的 示例 中 ， 最 重要 的 是 它 首 先 将 控制 转移 〈 即 更 改 PC) 到 
操作 系统 内 定义 恨 好 的 陷阱 处 理 程序 〈trap handler ) 。 操 作 系 统 开 
始 启动 时 ， 会 利用 硬件 〈 也 是 特权 操作 ) 建立 此 类 例 程 的 地 址 ， 因 此 
在 后 续 的 陷阱 中 ， 硬 件 知道 从 哪里 开始 运行 代码 来 处 理 陷 阱 。 在 陷阱 
的 同时 ， 硬 件 还 做 了 另 一 件 至 关 重 要 的 事情 : 它 将 处 理 器 的 模式 从 用 
户 模式 (user mode) 更 改 为 内 核 模式 Cane mode) 。 在 用 户 模 式 
下 ， 操 作 受 到 限制 ， 尝 试 执行 特权 操作 将 导致 陷阱 ， 并 可 外 能 终止 违规 
进程 。 另 一 方面 ， 在 内 核 模 式 下 ， 机 器 的 全 部 能 力 都 可 用 ， 因 此 可 以 
执行 所 有 特权 操作 。 因 此 ， 在 传统 设置 中 《同样 ， 没 有 虚拟 化 ) ， 控 
制 流 程 如 表 B. 1 所 示 。 





表 B. 1 执行 系统 调用 





3. 切换 到 内 核 模式 
跳 转 到 陷阱 处 理 程序 


4. 在 内 核 模式 
处 理 系统 调用 
从 陷阱 返 下 

5. 切换 到 用 户 模式 

返回 用 户 模式 












































在 虚拟 化 平台 上 ， 事 情 会 更 有 趣 。 如 果 在 09 上 运行 的 应 用 程序 希望 执 
行 系统 调用 ， 它 会 执行 完全 相同 的 操作 : 执行 陷阱 指令 ， 并 将 参数 小 
心地 放 在 栈 上 《或 寄存 器 中 ) 。 但 是 ，VMM 控 制 机 器 ， 因 此 安装 了 陷阱 
处 理 程序 的 VMM 将 首先 在 内 核 模式 下 执行 。 


那么 VMM 应 该 如 何 处 理 这 个 系统 调用 呢 ?VMM 并 不 真正 知道 如 何 (how) 
处 理 调用 。 毕 竞 ， 它 不 知道 正在 运行 的 每 个 操作 系统 的 细节 ， 因 此 不 
知道 每 个 调用 应 该 做 什么 。 然 而 ，VMM 知 道 的 是 0S 的 陷阱 处 理 程序 在 哪 
里 (where) 。 它 知道 这 一 点 ， 因 为 当 操作 系统 启动 时 ， 它 试图 安装 自 
己 的 陷阱 处 理 程 序 。 当 操作 系统 这 样 做 时 ， 它 试图 执行 一 些 特 权 操 
作 ， 因 此 陷入 VMM 中 。 那 时 ，VMM 记 录 了 必要 的 信息 〈 即 这 个 0S 的 陷阱 
处 理 程序 在 内 存 中 的 位 置 ) 。 现 在 ， 当 VMM 从 在 给 定 操作 系统 上 运行 的 
用 户 进程 接收 到 陷阱 时 ， 它 确切 地 知道 该 做 什么 : 它 跳 转 到 操作 系统 
的 陷阱 处 理 程序 ， 并 让 操作 系统 按 原 样 处 理 系统 调用 。 当 操作 系统 完 
成 时 ， 它 会 执行 某 种 特权 指令 从 陷阱 返回 〈 在 MIPS 上 是 rett， 在 x86 上 
是 iret) ， 然 后 再 次 弹 回 VMM， 然 后 VMM 意 识 到 操作 系统 正 试图 从 陷阱 
返回 ， 从 而 执行 一 次 真正 的 从 陷阱 返回 ， 从 而 将 控制 返回 给 用 户 ， 并 
让 机 器 返回 用 户 模 式 。 表 B. 2 和 表 B. 3 描述 了 整个 过 程 ， 无 论 是 没有 虚 
0 
以 节省 空间 〉。 





表 B. 2 没有 虚拟 化 的 系统 调用 流程 


1. 系统 调用 : 
陷入 0S 








2. 0S 陷 阱 处 理 程序 : 
解码 陷阱 并 执行 相应 的 系统 调用 例 程 ; 
完成 后 ， 从 陷阱 返回 


3. 继续 执行 〈@ 陷 阱 之 后 的 PC ) | 


表 B. 3 有 虚拟 化 的 系统 调用 流程 











i 




















| 


进程 操作 系统 VMM 
1. 系统 调用 : 
陷入 0S 






2. 进程 陷入 : 
调用 0S 陷 阱 处 理 程序 
(以 减少 的 特权 ) 






























































| 
4. 0S 尝 试 从 隐 阱 返回 : 
真正 从 陷阱 返回 

5. 继续 执行 〈《@ 陷 阱 之 后 的 PC ) | 


从 表 中 可 以 看 出 ， 虚 拟 化 时 必须 做 更 多 的 工作 。 当 然 ， 由 于 额外 的 跳 
转 ， 虚 拟 化 可 能 确实 会 减 慢 系统 调用 ， 从 而 可 能 影响 性 能 。 


你 可 能 还 注意 到 ， 我 们 还 有 一 个 问题 : 操作 系统 应 该 运行 在 什么 模 
式 ? 它 无 法 在 内 核 模式 下 运行 ， 因 为 这 可 以 无 限制 地 访问 硬件 。 因 
此 ， 它 必须 以 比 以 前 更 少 的 特权 模式 运行 ， 能 够 访问 上 自己 的 数据 结 
构 ， 同 时 阻止 从 用 户 进程 访问 其 数据 结构 。 


在 Disco 的 工作 中 ，Rosenblum 及 其 同事 利用 MIPS 硬 件 提 供 的 特殊 模式 
( 称 为 管理 员 模 式 ) ， 非 常 巧 妙 地 处 理 了 这 个 问题 。 在 此 模式 下 运行 
时 ， 仍 然 无 法 访问 特权 指令 ,但 可 以 访问 比 在 用 户 模 式 下 更 多 的 内 
存 。 操 作 系 统 可 以 将 这 个 额外 的 内 存 用 于 其 数据 结构 ， 一 切 都 很 好 。 
在 没有 这 种 模式 的 硬件 上 ， 必 须 以 用 户 模 式 运 行 0S 并 使 用 内 存 保 护 
《页 表 和 TLB) ， 来 适当 地 保护 0S 的 数据 结构 。 换 句 话说 ， 当 切换 到 0S 
时 ， 监 视 器 必须 通过 页 表 保 护 ， 让 0S 数 据 结 构 的 内 存 对 0S 可 用 。 当 切 
换 回 正在 运行 的 应 用 程序 时 ， 必 须 删 除 读 取 和 写 入 内 核 的 能 力 。 




















B.4 虚拟 化 内 存 











你 现在 应 该 对 处 理 器 的 虚拟 化 方式 有 了 基本 的 了 解 : VMM 束 像 一 个 操作 
系统 ， 安 排 不 同 的 虚拟 机 运行 。 当 特权 级 别 发 生变 化 时 ， 会 发 生 一 些 
有 趣 的 交互 。 但 我 们 忽略 了 很 大 一 部 分 : VMM 如 何 虚 拟 化 内 存 ? 


每 个 操作 系统 通常 将 物理 内 存 视 为 一 个 线性 的 页 面 数组 ， 并 将 每 个 页 
面 分 配给 自己 或 用 户 进程 。 当 然 ， 操 作 系 统 本 身 已 经 为 其 运行 的 进程 
虚拟 化 了 内 存 ， 因 此 每 个 进程 都 有 自己 的 私有 地 址 空间 的 假象 。 现 在 
我 们 必须 添加 男 一 层 虚 拟 化 ， 以 便 多 个 操作 系统 可 以 共享 机 器 的 实际 
物理 内 存 ， 我 们 必须 透明 地 这 样 做 。 


这 个 额外 的 虚拟 化 层 使 “物理 ”内 存 成 为 一 个 虚拟 化 层 ， 在 VMM 所 谓 的 
机 器 内 存 (machine memory) 之 上 ， 机 器 内 存 是 系统 的 真实 物理 内 
存 。 因 此 ， 我 们 现在 有 一 个 额外 的 间接 层 : 每 个 操作 系统 通过 其 每 个 
进程 的 页 表 上 映射 虚拟 到 物理 地 址 ，VMM 通 过 它 的 每 个 0S 页 面 表 ， 将 生成 
的 物理 地 址 映射 到 底层 机 器 地 址 。 图 B. 1 描述 了 这 种 额外 的 间接 层 。 
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图 B. 1 VMM 内 存 虚 拟 化 


在 该 图 中 ， 只 有 一 个 虚拟 地 址 空间 ， 包 含 4 个 页 面 ， 其 中 3 个 是 有 效 的 
(0、2 和 3) 。 操 作 系 统 使 用 其 页 面 表 将 这 些 页 面 映射 到 3 个 底层 物理 
帧 〈 分 别 为 10、3 和 8) 。 在 0S 之 下 ，VMM 提 供 进一步 的 间接 级 别 ， 将 
PFN 3、8 和 10 分 别 映射 到 机 器 帧 6、10 和 和 5。 当然， 这 张 图 简化 了 一 些 
事情 。 在 真实 系统 上 ， 会 运行 V 个 操作 系统 (V 可 能 大 于 1) ， 因 有 此 V 


个 VMM 页 表 。 此 外 ， 在 每 个 运行 的 操作 系统 0Si 之 上 ， 将 有 许多 进程 Pi 
运行 (Pi 可 能 是 数 十 或 数 百 ) ， 因 此 0Si 内 有 Pi 个 (每 进程 页 表 。 


为 了 理解 它 如 何 更 好 地 工作 ， 让 我 们 回想 一 下 地 址 转换 (address 
translation) 在 现代 分 页 系统 中 的 工作 原理 。 具 体 来 说 ， 让 我 们 讨论 
在 具有 软件 管理 的 TLB 的 系统 上 ， 在 地 址 转换 期 间 发 后 的 情况 。 假 设 用 
户 进程 生成 一 个 地 址 〈 用 于 指令 获取 或 显 式 加 载 或 存储 ) 。 根 据 定 
义 ， 该 进程 生成 虚拟 地 址 (virtual address) ， 因 为 其 地 址 空间 已 由 
0S 虚 拟 化 。 如 你 所 知 ， 操 作 系 统 的 作用 是 在 硬件 的 帮助 下 将 其 转换 为 
物理 地 址 (virtual address) ， 从 而 能 够 从 物理 内 存 中 获取 所 需 的 内 
假设 有 一 个 32 位 的 虚拟 地 址 空间 和 4-KB 的 页 面 大 小 。 因 此 ，32 位 地 址 
被 分 成 两 部 分 : 一 个 20 位 的 虚拟 页 号 (VPN〉 和 一 个 12 位 的 偏 移 量 。 在 
硬件 TLB 的 帮助 下 ，0S 的 作用 是 将 VPN 转 换 为 有 效 的 物理 页 帧 号 
(PFN) ， 从 而 产生 完全 形式 的 物理 地 址 ， 可 以 将 其 发 送 到 物理 内 存 以 
获取 正确 的 数据 。 在 通常 情况 下 ， 我 们 希望 TLB 能 够 处 理 硬件 中 的 转 
换 ， 从 而 快速 实现 转换 。 当 TLB 未 命中 时 (至 少 在 具有 软件 管理 的 TLB 
的 系统 上 ) ， 操 作 系 统 必须 参与 处 理 未 命中 ， 如 表 B. 4 所 示 。 


表 B. 4 没有 虚拟 化 的 TLB 未 命中 流程 























1. 从 内 存 加 载 


TLB 未 命中 : 陷阱 











2. 0S TLB 未 命中 处 理 程序 : 








则 取得 PFN， 更 新 TLB; 


从 陷阱 返回 





如 你 所 见 ，TLB 未 命中 会 导致 陷入 操作 系统 ， 操 作 系 统 在 页 表 中 查找 
VPN， 将 转换 映射 装 入 TLB， 来 处 理 该 故障 。 


然而 ， 操 作 系 统 之 下 有 虚拟 机 监视 器 时 ， 事 情 变 得 更 有 趣 了 。 我 们 再 
来 看 看 TLB 未 命中 的 流程 (参见 表 B. 5 的 总 结 ) 。 当 进程 进行 虚拟 内 存 
引用 ， 并 导致 TLB 未 命中 时 ， 运 行 的 不 是 0S TLB 的 未 命中 处 理 程序 。 实 
际 上 ， 运 行 的 是 VMM TLB 未 命中 处 理 程序 ， 因 为 YMM 是 机 器 的 真正 特权 
所 有 者 。 但 是 ， 在 正常 情况 下 ，VMM TLB 处 理 程 序 不 知道 如 何 处 理 TLB 
未 命中 ， 因 此 它 立 即 跳 转 到 0S TLB 未 命中 处 理 程序 。VMM 知 道 此 处 理 程 
序 的 位 置 ， 因 为 操作 系统 在 “启动 ”期 间 尝 试 安装 自己 的 陷阱 处 理 程 
序 。 然 后 运行 OS TLB 未 命中 处 理 程序 ， 对 有 问题 的 VPN 执 行 页 表 查 找 ， 
并 尝试 在 TLB 中 安装 VPN 到 PFN 映 射 。 但 是 ， 这 样 做 是 一 种 特权 操作 ， 
此 导致 男 一 次 陷入 VMM〔 当 任何 非特 权 代 码 尝 试 执行 特权 时 ，VMM 都 会 
得 到 通知 ) 。 此 时 ，VMM 玩 了 花样 : VMM 不 是 安装 操作 系统 的 VPN-to- 
PFN 映 射 ， 而 是 安装 其 所 需 的 VPN-to-MFN 映 射 。 这 样 做 之 后 ， 系 统 最 终 
返回 到 用 户 级 代码 ， 该 代码 重 试 该 指令 ， 并 导致 TLB 命 中 ， 从 数据 所 在 
的 机 器 帧 中 获取 数据 。 











表 B. 5 有 虚拟 化 的 TLB 未 命中 流程 





进程 操作 系统 虚拟 机 监视 器 


1. 从 内 存 加 载 
TLB 未 命中 : 陷阱 


3. 0S TLB 未 命中 处 理 程 
序 : 

从 VA 提取 VPN 

查找 页 表 

如 果 存 在 并 有 效 : 取得 PFN， 
更 新 TLB 


2. VMM TLB 未 命中 处 理 程 


部 : 
调用 0S TLB 处 理 程序 (减少 
的 特权 ) 




































































4. 陷阱 处 理 程序 : 

非特 权 代 码 尝试 更 新 TLB 
0S 在 尝试 安装 VPN 到 PFN 的 映 
射 

有 VPN-to-MFN 更 新 TLB〔( 特 
权 操 作 ) 

兆 回 0S (减少 的 特权 ) 


5， 从 陷阱 返 | 


这 组 操作 还 暗示 了 ， 对 于 每 个 正在 运行 的 操作 系统 的 物理 内 存 ，VMM 必 
须 如 何 管理 虚拟 化 。 就 像 操 作 系统 有 每 个 进程 的 页 表 一 样 ，VMM 必 须 跟 
踪 它 运行 的 每 个 虚拟 机 的 物理 到 机 器 映射 。 在 VYMM TLB 未 命中 处 理 程序 

， 需 要 查阅 每 个 机 器 的 页 表 ， 以 便 确定 特定 “物理 ”页 面 映射 到 哪 


个 机 器 页 面 ， 甚 至 它 当 前 是 否 存在 于 机 器 内 存 中 《例如 ，VMM 可 能 已 将 
其 交换 到 磁盘 〉。 


An St To 

































6. 陷阱 处 理 程序 : 
非特 权 指令 尝试 从 陷阱 返回 


从 陷阱 返回 




















导致 TLB 命 中 























补充 : 管理 程序 和 硬件 管理 的 TLBS 


我 们 的 讨论 集中 在 软件 管理 的 TLB 以 及 发 生 未 命中 时 需要 完成 
的 工作 。 但 你 可 能 想 知 道 : 有 硬件 管理 的 TLB 时 ， 虚 拟 机 监视 
器 如 何 参 与 ? 在 这 些 系统 中 ， 硬 件 在 每 个 TLB 未 命中 时 允 历 页 
表 并 根据 需要 更 新 TLB， 因 此 VMM 没 有 机 会 在 每 个 TLB 未 命中 时 
运行 以 将 其 转换 到 系统 中 。 作 为 蔡 代 ，VMM 必 须 密切 监视 操作 
系统 对 每 个 页 表 的 更 改 〈 在 硬件 管理 的 系统 中 ， 由 某 种 类 型 
的 页 表 基 址 寄存 器 指向 ) ， 并 保留 一 个 影子 页 表 (shadow 
page table) ， 它 将 每 个 进程 的 虚拟 地 址 映射 到 VMM 期 望 的 机 
器 页 面 [AA06]。 每 当 操 作 系统 答 试 安装 进程 的 操作 系统 级 页 











表 时 ，VMM 就 会 安装 进程 的 影子 页 表 ， 然 后 硬件 干 活 ， 利 用 影 
We 而 操作 系统 甚至 没有 注意 
到 。 








最 后 ， 你 可 能 注意 到 ， 在 这 一 系列 操作 中 ， 虚 拟 化 系统 上 的 TLB 未 命中 
变 得 比 非 虚 拟 化 系统 更 昂贵 一 点 。 为 了 降低 这 一 成 本 ，Disco 的 设计 人 
员 增 加 了 一 个 VMM 级 别 的 “软件 TLB”。 这 种 数据 结构 背后 的 想法 很 简 
单 。VMM 记 录 它 看 到 操作 系统 尝试 安装 的 每 个 虚拟 到 物理 的 映射 。 然 
后 ， 在 TLB 未 命中 时 ，VMM 首 先 查 询 其 软件 TLB 以 查看 它 是 否 已 经 看 到 此 
虚拟 到 物理 映射 ， 以 及 VMM 所 需 的 虚拟 到 机 器 的 映射 应 该 是 什么 。 如 果 
VMM 在 其 软件 TLB 中 找到 转换 ， 就 将 虚拟 到 机 器 的 映射 直接 装 入 硬件 TLB 
中 ， 因 此 跳 过 了 上 面 控制 流 中 的 所 有 来 回 [B+97] 。 











B. 5 信息 沟 


操作 系统 不 太 了 解 应 用 程序 的 真正 需求 ， 因 此 通常 必须 制定 通用 的 策 
略 ， 希 望 对 所 有 程序 都 有 效 。 类 似 地 ，VMM 通 常 不 太 了 解 操作 系统 正在 
做 什么 或 想 要 什么 ， 这 种 知识 缺乏 有 时 被 称 为 VYMM 和 0S 之 间 的 信息 沟 
(information gap) ， 可 能 导致 各 种 低 效 率 [B+97]。 例 如 ， 当 0S 没 有 
其 他 任何 东西 可 以 运行 时 ， 它 有 时 会 进入 空 循 环 (idle loop) ， 只 是 
自 旋 并 等 待 下 一 个 中 断 发 生 : 


while (1) 
; // the idle loop 








如 果 操 作 系 统 负 责 整 个 机 器 ， 因 此 知道 没有 其 他 任务 需要 运行 ， 这 样 

旋转 是 有 意义 的 。 但 是 ， 如 果 VMM 在 两 个 不 同 的 操作 系统 下 运行 ， 一 个 

在 空 循 环 中 ， 另 一 个 在 运行 有 用 的 用 户 进程 ， 那 么 VMM 知 道 一 个 操作 系 

这 样 可 以 为 做 有 用 工作 的 操作 系统 提供 更 
和 CPU 时 间 。 


补充 : 半 虚 拟 化 














在 许多 情况 下 ， 最 好 是 假定 ， 无 法 为 了 更 好 地 使 用 虚拟 机 监 
视 器 而 修改 操作 系统 (例如 ， 因 为 你 在 不 友好 的 竞争 对 手 的 
操作 系统 下 运行 VMM) 。 但 是 ， 情 况 并 非 总 是 如 此 。 如 果 可 以 
修改 操作 系统 (正如 我 们 在 页 面 按 需 置 零 的 示例 中 所 见 〉， 
它 可 能 在 VMM 上 更 高 效 地 运行 。 运 行 修改 后 的 操作 系统 ， 以 便 
在 VM 上 上 运行， 这 通常 称 为 半 上 虚拟 化 ( para- 
virtualization) [WSG02] ， 因 为 VMM 提 供 的 虚拟 化 不 是 完整 
的 虚拟 化 ， 而 是 需要 操作 系统 更 改 才能 有 效 运行 的 部 分 虚拟 
化 。 研 究 表明 ， 一 个 设计 合理 的 半 虚 拟 化 系统 ， 只 需要 正确 
的 操作 系统 更 改 ， 就 可 以 接近 没有 VMM 时 的 效率 [BD+03j]。 











另 一 个 例子 是 页 面 按 需 置 零 。 大 多 数 操作 系统 在 将 物理 帧 映射 到 进程 
的 地 址 空间 之 前 将 其 置 零 。 这 样 做 的 原因 很 简单 : 安全 性 。 如 果 操 作 
系统 为 一 个 进程 提供 了 男 一 个 已 经 使 用 的 页 面 ， 但 没有 将 其 置 零 ， 则 
可 能 会 发 生 跨 进程 的 信息 泄露 ， 从 而 可 能 泄露 敏感 信息 。 遗 憾 的 是 ， 
出 于 同样 的 原因 ，VMM 必 须 将 它 提供 给 每 个 操作 系统 的 页 面 置 零 ， 因 此 
很 多 时 候 页 面 将 置 零 两 次 ， 一 次 由 VMM 分 配给 操作 系统 ， 一 次 由 操作 系 
统 分 配给 操作 系统 的 一 个 进程 。Disco 的 作者 没有 很 好 地 解决 这 个 问题 
的 方法 : 他 们 只 是 简单 地 将 操作 系统 (IRIX) 改 为 不 对 页 面 置 零 ， 因 
为 知道 已 被 底层 VMM [B+97] 置 零 。 


类 似 这 样 的 问题 ， 这 里 描述 的 还 有 很 多 。 一 种 解决 方案 是 VMM 使 用 推理 
(一 种 隐 伟 信息 ，implicit information) 来 克服 该 问题 。 例 如 ，VMM 
可 以 通过 注意 到 0S 切 换 到 低 功 率 模 式 来 检测 空 困 循环。 在 半 虚 拟 化 
(para-virtualized) 系统 中 ， 还 有 另 一 种 方法 ， 需 要 更 改 操作 系 
统 。 这 种 更 明确 的 方法 虽然 难以 实施 ， 但 却 非 常 有 效 。 

















B.6 小 结 


虚拟 化 正在 复兴 。 出 于 多 种 原因 ， 用 户 和 管理 员 和 希望 同时 在 同一 台 计 
算 机 上 运行 多 个 操作 系统 。 关 键 是 VMM 通 常 透明 地 (transparently) 
提供 服务 ， 上 面 的 操作 系统 完全 不 知道 它 实际 上 并 没有 控制 机 器 的 硬 
件 。VMM 使 用 的 关键 方法 是 扩展 受 限 直接 执行 的 概念 。 通 过 设置 硬件 ， 








让 VMM 能 够 介入 关键 事件 “例如 陷阱 ) ，VMM 可 以 完全 控制 机 器 资源 的 
分 配方 式 ， 同 时 保留 操作 系统 所 需 的 假象 。 


提示 : 使 用 隐 含 信息 


隐 伟 信息 可 以 成 为 分 层 系统 中 的 一 个 强大 工具 ， 在 这 种 系统 
中 很 难 改 变 系 统 之 间 的 接口 ， 但 需要 更 多 关于 系统 不 同 层 的 
信息 。 例 如 ， 基 于 块 的 磁盘 设备 ， 可 能 想 了 解 更 多 关于 它 上 
面 的 文件 系统 如 何 使 用 它 的 信息 。 同 样 ， 应 用 程序 可 能 想 知 
道 文件 系统 页 面 缓存 中 当前 有 哪些 页 面 ， 但 操作 系统 不 提供 
访问 此 信息 的 API。 在 这 两 种 情况 下 ， 研 究 人 员 都 开 及 了 强大 
的 推理 技术 ， 来 隐 式 收集 捷 需 的 信息 ， 而 无 需 在 层 [AD+01， 
S+03] 之 间 建 立 明确 的 接口 。 这 些 技术 在 虚拟 机 监视 器 中 非常 
有 用 ， 它 希望 了 解 有 关 在 其 上 运行 的 0S 的 更 多 信息 ， 而 无 需 
在 两 个 层 之 间 使 用 显 式 API。 

















你 可 能 已 经 注意 到 ， 操 作 系 统 为 进程 执行 的 操作 与 VMM 为 操作 系统 执行 
的 操作 之 间 存 在 一 些 相似 之 处 。 它 们 毕竟 都 是 虚拟 化 硬件 ， 因 此 做 了 
一 些 相同 的 事情 。 但 是 ， 有 一 个 关键 的 区 别 : 通过 操作 系统 虚拟 化 ， 
提供 了 许多 新 的 抽象 和 漂亮 的 接口 。 使 用 VMM 级 虚拟 化 ， 抽 象 与 硬件 相 
同 ( 因 此 不 是 很 好 ) 。 虽 然 09 和 VMM 都 虚拟 化 硬件 ， 但 它们 通过 提供 完 
人 
于 使 用 s 


如 果 你 想 了 解 有 关 虚 拟 化 的 更 多 信息 ， 还 有 许多 其 他 主题 需要 研究 。 
例如 ， 我 们 甚至 没有 讨论 I/0 会 发 生 什 么 ， 这 个 主题 在 虚拟 化 平台 方面 
有 一 些 有 趣 的 新 问题 。 我 们 也 没有 讨论 操作 系统 “作为 兼职 ”运行 在 
有 时 称 为 “托管 ”配置 中 ， 虚 拟 化 如 何 工作 。 如 果 你 感 兴趣 ， 请 阅读 
有 关 这 两 个 主题 的 更 多 信息 [SVL01] 。 我 们 也 没有 讨论 ， 如 有 果 VMM 上 运 
行 的 一 些 操作 系统 占用 太 多 内 存 ， 会 发 生 什 么 。 


最 后 ， 人 硬件 支持 改变 了 平台 文 持 虚拟 化 的 方式 。 英 特 尔 和 AMD 等 公司 现 
在 直接 支持 额外 的 虚拟 化 层 ， 从 而 避免 了 本 半 中 的 许多 软件 技术 。 也 
许 ， 在 尚未 撰写 的 一 章 中 ， 我 们 会 更 详细 地 讨论 这 些 机 制 。 




















LAA06]“A Comparison of Software and Hardware Techniques for 
x86 Virtualization” 


Keith Adams and Ole Agesen 
ASPLOS ” 06, San Jose, California 


来 自 两 位 VMware 工 程 师 的 一 篇 优秀 的 论文 ， 讲 述 了 为 虚拟 化 提供 硬件 
支持 所 带 来 的 惊人 的 小 优势 。 此 外 ， 还 有 关于 VMware 虚 拟 化 的 一 般 性 
讨论 ， 包 括 为 了 虚拟 化 难以 虚拟 化 的 x86 平 台 ， 而 必须 采用 的 疯狂 的 二 
进 制 翻译 技巧 。 


[AD+01] “Information and Control in Gray-box Systems”Andrea 
C. Arpaci-Dusseau and Remzi H. Arpaci-Dusseau SOSP ” 01, 
Banff, Canada 


我 们 上 自己 的 工作 是 如 何 推 亲 信息， 甚至 从 应 用 程序 级 别 对 操作 系统 施 
加 控制 ， 而 不 对 操作 系统 进行 任何 更 改 。 其 中 最 好 的 例子 : 使 用 基于 
概率 探测 器 的 技术 确定 在 0$ 中 缓存 哪些 文件 块 。 这 样 做 可 以 让 应 用 程 
序 更 好 地 利用 缓存 ， 优 先 安排 会 导致 命中 的 工作 。 


[BO0] “FreeBSD Developers” Handbook: 





Chapter 11 x86 Assembly Language Programming” 

一 本 BSD 开 发 者 手册 中 关于 系统 调用 的 很 好 的 教程 。 

[BD+03] “Xen and the Art of Virtualization” 

Paul Barham, Boris Dragovic, Keir Fraser, Steven Hand, Tim 
Harris, Alex Ho, Rolf Neuge- bauer, Ian Pratt, Andrew 


Warfield 


SOSP ” 03, Bolton Landing, New York 


该 论文 表明 ， 对 于 半 虚 拟 化 系统 ， 虚 拟 化 系统 的 开销 可 以 低 得 令 信 难 
人 这 篇 关于 Xen 虚 拟 机 监视 器 的 论文 如 此 成 功 ， 导 致 了 一 家 公司 
和 诞生 。 


[B+97] “Disco: Running Commodity Operating Systems on 
Scalable Multiprocessors” 


Edouard Bugnion, Scott Devine, Kinshuk Govil, Mendel 
Rosenblum 


SUSP .97 


将 系统 社区 重新 带 回 虚 拟 机 研究 的 论文 。 好 吧 ， 也 许 这 是 不 公平 的 ， 
为 Bressoud 和 Schneider [BS95] 也 做 了 ， 但 在 这 里 我 们 开始 理解 为 
什么 虚拟 化 会 回来 。 然 而 更 令 人 瞩目 的 是 ， 这 群 优秀 的 研究 人 员 创 六 
了 VMware， 赚 取 了 数 十 亿美 元 。 


[BS95]“Hypervisor-based Fault-tolerance” Thomas C. Bressoud, 
Fred B. Schneider SOSP ” 95 


最 早 引 入 虚拟 机 管理 程序 (hypervisor， 这 只 是 虚拟 机 监视 器 的 另 一 
个 术语 ) 的 论文 之 一 。 然 而 ， 在 这 项 工作 中 ， 这 些 管 理 程序 用 于 提高 
硬件 故障 的 系统 容忍 度 ， 这 可 能 不 如 本 章 讨 论 的 一 些 更 实际 的 场景 有 
用 。 但 它 本 身 仍然 是 一 篇 非常 有 趣 的 论文 。 


[G74] “Survey of Virtual Machine Research” 





R.P. Goldberg 
IEEE Computer, Volume 7, Number 6 
一 份 对 许多 老 的 虚拟 机 研究 的 调查 。 


[SVLO1] “Virtualizing I/0 Devices on VMware Workstation”s 
Hosted Virtual Machine Monitor” 


Jeremy Sugerman, Ganesh Venkitachalam and Beng-Hong Lim 


USENIX ” 01, Boston, Massachusetts 


本 文 很 好 地 概述 了 在 使 用 托管 体系 结构 的 VMware 中 I/0 的 工作 方式 。 该 
人 避免 了 在 VMM 中 重新 实现 它 
[1 





[V98] VMware corporation. 


这 可 能 是 本 书 中 最 无 价值 的 参考 资料 ， 因 为 你 可 以 自己 阅读 一 下 。 但 
无 论 如 何 ， 该 公司 成 立 于 1998 年 ， 是 虚拟 化 领域 的 领导 者 。 


[S+03] “Semantically-Smart Disk Systems?” 


Muthian Sivathanu, Vijayan Prabhakaran, Florentina JI. 
Popovici, Timothy E. Denehy, Andrea 


C. Arpaci-Dusseau， Remzi H. Arpaci-Dusseau FAST ”03， San 
Francisco, California, March 2003 


又 是 我 们 的 工作 ， 这 次 展示 了 一 个 基于 块 的 设备 如 何 能 够 推 新 出 它 上 
面 的 文件 系统 正在 做 什么 ， 例 如 删除 文件 。 其 中 使 用 的 技术 在 块 设备 
内 实现 了 有 趣 的 新 功能 ， 例 如 安全 删除 或 更 可 靠 的 存储 。 


[WSG02] “Scale and Performance in the Denali Isolation 
Kernel” Andrew Whitaker, Marianne Shaw, and Steven D. Gribble 


OSDI ” 02, Boston, Massachusetts 


介绍 术语 半 虚 拟 化 的 论文 。 虽然 人 们 可 以 争辩 说 Bugnion 等 人 [B+97j 在 
Disco 论 文中 介绍 了 半 虚 拟 化 的 概念 ， 但 Whitaker 等 人 进一步 说 明 ， 这 
个 想法 的 通用 性 如 何 超 出 以 前 的 想象 。 


[1]， 使 用 术语 “中 断 ” 来 表示 儿 乎 任何 理智 的 人 都 会 称 之 为 陷阱 的 指 
令 ， 这 让 事情 变 得 混乱 。 正 如 Patterson 曾 说 英特尔 指令 集 是 “只 有 母 
杀 才 爱 的 ISA。” 但 实际 上 ， 我 们 有 点 喜欢 它 ， 但 我 们 不 是 它 的 母 杀 。 





附录 C ”关于 监视 占 的 对 话 


教授 : 你 又 来 了 》 al 


学 生 : 我 打赌 你 现在 已 经 累 了 ， 因 为 你 知道 的 ， 你 老 了 。 实 际 上 ,不 
是 50 岁 那 种 老 。 


0 我 不 是 50 岁 ! 实际 上 ， 我 刚 满 40 岁 。 但 天 啊 ， 我 想 你 ，20 出 头 





学 生 : ……19， 实 际 上 .…………: 

教授 : 天 )…… 是 的 ，19， 不 管 怎 样 ， 我 猜想 40 岁 和 50 岁 的 人 看 起 
来 有 点 像 。 但 相信 我 ， 其 实 他 们 这 不 一 样 。 至 少 ， 我 50 岁 的 朋友 是 这 
么 说 的 。 

学 生 : 不 管 怎 样 ……… 

教授 : 啊 ， 是 的 ! 我 们 为 什么 谈话 来 着 ? 


学 生 : 监视 器 。 现 在 我 知道 监视 器 (monitor) 是 什么 了 ， 它 不 仅 是 放 
在 我 面前 的 计算 机 的 显示 器 的 某 种 旧 的 名 称 。 


教授 : 是 的 ， 这 是 完全 不 同类 型 的 东西 。 它 是 一 种 老 的 并 发 原 语 ， 虽 
在 将 锁 上 自动 合并 到 面向 对 象 的 程序 中 。 


学 生 : 为 什么 不 把 它 包含 在 并 发 部 分 呢 ? 

教授 : 好 吧 ， 本 书 的 大 部 分 内 容 都 是 关于 C 编 程 和 POSIX 线 程 库 的 ， 屠 
里 没有 监视 器 ， 因 而 没有 放 在 那 部 分 。 但 出 于 一 些 历史 原因 ， 至 少 应 
该 包含 有 关 该 主题 的 信息 ， 所 以 就 放 在 这 里 了 ， 我 想 。{41 

学 生 : 啊 ， 历 史 。 那 是 为 老人 准备 的 ， 就 像 你 一 样 ， 对 吗 ? 
教授 ( 怒 视 ) …… 








学 生 ， 哦 ， 轻 松 点 。 我 开玩笑 的 ! 
教授 ， 我 都 等 不 及 想 看 到 你 参加 期 末 考 试 了 …… 





[1]， 由 于 监视 器 的 内 容 已 过 时 ， 本 书 中 文 版 并 不 包含 ， 感 兴趣 的 读者 
可 以 访问 作者 网 站 并 下 载 阅读 。 





附录 D 关于 实验 室 的 对 话 


学 生 : 这 是 我 们 最 后 的 对 话 吗 ? 
教授 : 希望 如 此 ! 你 知道 ， 你 已 经 成 了 我 心中 的 痛 ! 
学 生 : 是 的 ， 我 也 很 喜欢 我 们 的 谈话 。 现 在 谈 什 么 ? 


教授 : 这 是 关于 你 在 学 习 这 些 材料 时 应 该 做 的 项 目 。 你 知道 ， 实 际 编 
程 ， 做 一 些 真 正 的 工作 ， 而 不 是 这 种 不 间断 的 谈话 和 阅读 ， 才 是 真正 
的 学 习 方式 ! 


学 生 : 听 起 来 很 重要 。 为 什么 不 早点 告诉 我 ? 


教授 : 咽 ， 希 望 那 些 在 整个 课程 中 使 用 这 本 书 的 人 更 早 地 看 到 这 一 部 
分 。 如 果 没 有 ， 他 们 真 的 错过 了 一 些 东 西 。 


学 生 : 好 像 是 这 样 的 。 项 目 是 什么 样 的 ? 


教授 咽 ， 有 两 种 类 型 的 项 目 。 第 一 类 可 以 称 为 系统 编程 项 目 ， 在 运 
行 Linux 的 机 器 上 和 C 编 程 环境 中 完成 的 。 这 种 类 型 的 编程 非常 有 用 ， 
因为 当 你 进入 现实 世界 时 ， 可 能 不 得 不 自己 做 一 些 这 种 类 型 的 黑客 编 


程 
学 生 : 第 二 类 项 目 是 什么 ? 


教授 : 第 二 类 基于 一 个 真正 的 内 核 ， 一 个 在 麻 省 理工 学 院 开发 的 、 双 
酷 又 小 的 教学 内 核 ， 名 为 xv6。 它 是 Intel x86 的 老 版 UNIX 的 “ 移 
植 ”， 非 常 简洁 ! 通过 这 些 项 目 ， 你 实际 上 可 以 重新 编写 内 核 的 一 部 
分 ， 而 不 是 编写 与 内 核 交 互 的 代码 (就 像 在 系统 编程 中 那样 〉。 


学 生 : 听 起 来 很 有 趣 ! 那么 我 们 一 个 学 期 应 该 做 些 什么 呢 ? 你 知道 ， 
白天 只 有 这 么 长 ， 而 且 你 们 教授 们 似乎 筷 记 了 ， 我 们 学 生 会 选择 四 五 
门 课 程 ， 而 不 仅仅 是 你 的 课程 ! 




















教授 : 喝 ， 这 里 可 以 很 灵活 。 有 些 课 只 进行 所 有 系统 编程 ， 因 为 它 非 
常 实用 。 有 些 课 会 进行 所 有 xv6 黑 客 编程 ， 因 为 它 确实 让 你 了 解 操 作 系 
统 的 工作 原理 。 有 些 课 ， 你 可 能 已 经 猜 到 ， 从 一 些 系统 编程 开始 ， 然 
后 在 最 后 进行 xv6 编 程 。 这 实际 上 取决 于 特定 课程 的 教授 。 


学 生 : 《叹气 ) 教授 们 掌控 一 切 ， 似 乎 …… 


教授 : 哦 ， 完 全 不 是 ! 但 他 们 的 那些 微小 控制 是 这 项 工作 中 最 有 趣 的 
部 分 之 一 。 你 知道 决定 作业 是 很 重要 的 一 一 而 且 任何 教授 都 不 会 掉 以 





学 生 : 嗯 ， 很 高 兴 上 听 到 这 一 点 。 我 想 我 们 应 该 看 看 这 些 项 目 是 关于 什 





教授 : 好 的 。 还 有 一 件 事 : 如 果 你 对 系统 编程 部 分 感 兴 趣 ， 还 有 一 些 
关于 UNIX 和 C 编 程 环 境 的 教程 。 


学 生 : 听 起 来 似乎 太 有 用 了 。 
教授 : 好 吧 ， 看 一 看 。 你 知道 ， 有 时 候 ， 课 程 应 该 讲 一些 有 用 的 东 
西 ! 


附录 E 实验 室 : 指南 


这 是 一 份 非常 简短 的 文档 ， 可 以 帮助 你 熟悉 UNIX 系 统 上 C 编 程 环境 的 基 
础 知识 。 它 不 是 面面俱到 或 特别 详细 ， 只 是 给 你 足够 的 知识 让 你 继续 


学 习 。 


关于 编程 的 几 点 一 般 建议 : 如 果 想 成 为 一 名 专业 程序 员 ， 需 要 掌握 的 
不 仅仅 是 语言 的 语法 。 具 体 来 说 ， 应 该 了 解 你 的 工具 ， 了 解 你 的 库 ， 
并 了 解 你 的 文档 。 与 C 编 译 相关 的 工具 是 gcc、gdb 和 1d。 还 有 大 量 的 库 
函数 也 可 供 你 使 用 ， 但 幸运 的 是 libc 包 含 了 许多 功能 ， 默 认 情 况 下 它 
与 所 有 (C 程 序 相 关联 一 一 需要 做 的 束 是 包含 正确 的 头 文件 。 最 后 ， 了 解 
如 何 找到 所 需 的 库 函 数 〈 例 如 ， 学 习 查 找 和 阅读 手册 页 ) 是 一 项 值得 
掌握 的 技能 。 我 们 稍 后 将 更 详细 地 讨论 这 些 内 容 。 


就 像 生活 中 《几乎 ) 所 有 值得 做 的 事情 ， 成 为 这 些 领 域 的 专家 需要 时 
ee 




















E. 1 一 个 简单 的 C 程 序 


我 们 从 一 个 简单 的 C 程 序 开始 ， 它 保存 在 文件 “hw. c” 中 。 与 Java 不 
同 ， 文 件 名 和 文件 内 容 之 间 不 一 定 有 关系 。 因 此 ， 请 以 适当 的 方式 ， 
利用 你 的 常识 来 命名 文件 。 


第 一 行 指 定 要 包含 的 文件 ， 在 本 例 中 为 stdio.h， 它 包含 许多 常用 输 
入 /输出 函数 的 “原型 ”。 我 们 感 兴趣 的 是 printf()。 当 你 使 用 
#include 指 令 时 ， 就 告诉 C 预 处 理 器 (cpp) 查找 特定 文件 (例如 ， 
stdio.h) ， 并 将 其 直接 插入 到 #include 的 代码 中 。 默 认 情 况 下 ，cpp 
将 查看 日 录 /usr/include/， 尝 试 查找 该 文件 。 





下 面 一 部 分 指定 main () 函数 的 签名 ， 即 它 返 回 一 个 整数 (int) ， 并 用 
两 个 参数 来 调用 ， 一 个 整数 argc， 它 是 命令 行 上 参数 数量 的 计数 。 一 
个 指向 字符 argv) 的 指针 数组 ， 每 个 指针 都 包含 命令 行 中 的 一 个 单 
词 ， 最 后 一 个 单词 为 nul1。 下 面 的 指针 和 数组 会 更 多 。 


/* header files go up here */ 

/* note that C comments ar nclosed within a slash and a star, and 
may wrap over lines */ 

// if you use gcc, two slashes will work too (and may be preferred) 

#include <stdio.h> 





/* main returns an integer */ 
int main(int argc, char *argv[]) { 
/* printf is our output function; 
by default, writes to standard out */ 
/* printf returns an integer, but we ignore that */ 
printf ("hello, world\n"); 





/* return 0 to indicate all went well */ 
return(0); 


程序 然后 简单 打印 字符 串 “hello，world”， 并 将 输出 流 换 到 下 一 
行 ， 这 是 由 printf 0 调用 结束 时 的 “\n” 实 现 的 。 然 后 ， 程 序 返 回 一 
个 值 并 结束 ， 该 值 被 传递 回执 行程 序 的 shell。 终 端 上 的 脚本 或 用 户 可 
以 检查 此 值 (在 csh 和 tcsh shel1 中 ， 它 存储 在 状态 变量 中 ) ， 以 查看 
程序 是 干净 地 退出 还 是 出 错 。 





E.2 编译 和 执行 


我 们 现在 将 学 习 如 何 编译 程序 。 请 注意 ， 我 们 将 使 用 gcc 作 为 示例 ， 但 
在 某 些 平台 上 ， 可 以 使 用 不 同 的 (本 机 〉 编 译 器 cc。 


在 shell 提 示 符 下 ， 只 需 键 入 : 





DEompt> OCe We 











gcc 不 是 真正 的 编译 器 ， 而 是 所 谓 的 “编译 器 驱动 程序 ”， 因 此 它 协调 
了 编译 的 许多 步 又。 通常 有 4 一 5 个 步 又。 首先 ，gcc 将 执行 cop 〈[C 预 处 
理 器 ) 来 处 理 某 些 指令 〈 例 如 #define 和 #include。 程 序 cpp 只 是 一 个 








源 到 源 的 转换 器 ， 所 以 它 的 最 终 产 品 仍然 只 是 源 代 码 〈 即 一 个 C 文 
件 ) 。 然 后 真正 的 编译 将 开始 ， 通 常 是 一 个 名 为 ccl 的 命令 。 这 会 将 源 
代码 级 别 的 C 代 码 转 换 为 特定 主机 的 低级 汇编 代码 。 然 后 执行 汇编 程序 
as， 生 成 目标 代码 《〈 机 器 可 以 真正 理解 的 数据 位 和 代码 位 ) ， 最 后 链 
接 编 辑 器 〈 或 链接 器 ) 1d 将 它们 组 合成 最 终 的 可 执行 程序 。 幸 运 的 是 
(! ) ， 在 大 多 数 情况 下 ， 你 可 以 不 明白 gcc 如 何 工作 ， 只 需 愉 快 地 使 
用 正确 的 标志 。 


上 面 编译 的 结果 是 一 个 可 执行 文件 ， 命 名 为 “默认 情况 下 ) a. out。 然 
后 运行 该 程序 ， 只 需 键入 : 





prompt> ./a.out 





运行 该 程序 时 ， 操 作 系 统 将 正确 设置 argc 和 argv， 以 便 程 序 可 以 根据 
需要 人 处理 命令 行 参数 。 具 体 来 说 ，argc 将 等 于 1，argv [0j 将 是 字符 串 
“ /a.out”， 而 argv[1j] 将 是 null1， 表 示 数 组 的 结束 。 


E. 3 有 用 的 标志 


在 继续 使 用 C 语 言 之 前 ， 我 们 首先 指出 一 些 有 用 的 gcc 编 译 标 志 。 


prompt> gcc -o hw hw.c # -o: to specify th xecutable nam 
prompt> gcc -Wall hw.c # -Wall: gives much better warnings 
Drompt> gee = 可 JW # -9: to enable debugging with gdb 
prompt> gcc -0O hw.c # -0O: to turn on optimization 








当然 ， 你 可 以 根据 需要 组 合 这 些 标 志 (例如 gcc -o hw -g -Wall 
hw. c) 。 在 这 些 标志 中 ， 你 应 该 总 是 使 用 -Wall1， 这 会 提供 很 多 关于 可 
能 出 错 的 额外 警告 。 不 要 忽视 警告 ! 相反 ， 要 修复 它们 ， 让 它们 幸福 
地 消失 。 


E.4 与 库 链 接 





有 了 时， 你 可 能 想 在 程序 中 使 用 库 函 数 。 因 为 C 库 中 有 很 多 函数 (可 以 自 
动 链接 到 每 个 程序 ) ， 所 以 通常 要 做 的 就 是 找到 正确 的 提 nclude 文 
件 。 最 好 的 方法 是 通过 手册 页 (manual page) ， 通 常 称 为 nan page。 


例如 ， 假 设 你 要 使 用 fork (0) 系统 调用 + 击 。 在 shell 提 示 符 下 输入 man 
fork， 你 将 获得 fork © 〇 如 何 工 作 的 文本 描述 。 最 顶部 的 是 一 个 简短 的 
代码 片段 ， 它 告诉 你 在 程序 中 需要 #include 哪 些 文件 才能 让 它 通 过 编 
译 。 对 于 fork() ， 需 要 #include sys/types.h 和 和 unistd.h， 按 如 下 方 
式 完 成 : 

#include <sys/types.h> 

#include <unistd.h> 











但 是 ， 某 些 库 函数 不 在 C 库 中 ， 因 此 你 必须 做 更 多 的 工作 。 例 如 ， 数 学 
库 有 许多 有 用 的 函数 〈 正 弦 、 人 余弦 、 正 切 等 ) 。 如 果 要 在 代码 中 包含 
函数 tan (0) ， 应 该 先 查 手册 页 。 在 tan 的 Linux 手 册页 的 顶部 ， 你 会 看 到 
以 下 两 行 代码 : 


#include <math.n> 


Link with -lm. 


你 已 经 应 该 理解 了 第 一 行 一 一 你 需要 #include 数 学 库 ， 它 位 于 文件 系 
统 的 标准 位 置 ( 即 /usr/include/math.h) 。 但 是 ， 下 一 行 告诉 你 如 何 
将 程序 与 数学 库 “ 链 接 ”。 有 许多 有 用 的 库 可 以 链接 。 其 中 许多 都 放 
在 /usr/1ib 中 ， 数 学 库 也 确实 在 这 里 。 


有 了 两 种 类 型 的 库 : 静态 链接 库 (以 .a 结尾 ) 和 动态 链接 库 〈 以 . so 结 
尾 ) 。 静 态 链接 库 直 接 组 合 到 可 执行 文件 中 。 也 就 是 说 ， 链 接 器 将 库 
的 低级 代码 插入 到 可 执行 文件 中 ， 从 而 产生 更 大 的 二 进 制 对 象 。 动 态 
链接 通过 在 程序 可 执行 文件 中 包含 对 库 的 引用 来 改进 这 一 点 。 程 序 运 
行 时 ， 操 作 系 统 加 载 程序 动态 链接 库 。 这 种 方法 优 于 静态 方法 ， 因 为 
它 节省 了 磁盘 空间 〈 没 有 不 必要 的 大 型 可 执行 文件 ) ， 并 人 允许 应 用 程 
序 在 内 存 中 共享 库 代 码 和 静态 数据 。 对 于 数学 库 ， 静 态 和 动态 版 本 都 
可 用 ， 静 态 版 本 是 /usr/lib/libm. a， 动 态 版 本 是 /usr/1ib/1ibm. so。 


在 任何 情况 下 ， 要 与 数学 库 链接 ， 都 需要 向 链接 编辑 器 指定 库 。 这 可 
以 通过 使 用 正确 的 标志 调用 gcc 来 实现 。 














prompt> gcc -o hw hw.c -Wall -lm 


-]X XX 标志 告诉 链接 器 查找 1ibX X X. so 或 1ibX x xX.a， 可 能 按 此 
顺序 。 如 果 出 于 某 种 原因 ， 你 坚持 使 用 动态 库 而 不 是 静态 库 ， 那 么 可 
以 使 用 另 一 个 标志 一 一 看 看 你 是 否 能 找到 它 是 什么 。 人 们 有 时 更 喜欢 
库 的 静态 版 本 ， 因 为 使 用 动态 库 有 一 点 点 性 能 开销 。 


最 后 要 注意 : 如 果 你 希望 编译 器 在 不 同 于 名 用 位 置 的 路 径 中 搜索 头 文 
件 ， 或 者 希望 它 与 你 指定 的 库 链 接 ， 可 以 使 用 编译 器 标志 -I 
/foo/bar ， 来 查找 目录 /foo/ bar 中 的 头 文件 ， 使 用 -L /foo/bar 标 志 
来 查找 /foo/bar 目 录 中 的 库 。 以 这 种 方式 指定 的 一 个 常用 目录 是 “. ” 
( 称 为 “点 ”) ， 它 是 UNIX 中 当前 目录 的 简写 。 


请 注意 ，-I 标 志 应 该 针对 编译 ， 而 - 工 标志 针对 链接 。 























E.5 分 别 编译 


一 旦 程序 开始 变 得 足够 大 ， 你 可 能 希望 将 其 拆 分 为 单独 的 文件 ， 分 别 
编译 每 个 文件 ， 然 后 将 它们 链接 在 一 起 。 例 如 ， 假 设 你 有 两 个 文件 ， 
hw. c 和 helper. c， 和 希望 单独 编译 它们 ， 然 后 将 它们 链接 在 一 起 。 


# we are using -Wall for warnings, -0O for optimization 
prompt> gcc -Wall -0O -c hw.c 

prompt> gcc -Wall -0 -c helper.c 

prompt> gcc -o hw hw.o helper.o -1lm 








-c 标 志 告 诉 编译 器 只 是 生成 一 个 目标 文件 一 一 在 本 例 中 是 名 为 hw. o 和 
helper. o 的 文件 。 这 些 文 件 不 是 可 执行 文件 ， 而 只 是 每 个 源 文件 中 代 
码 的 机 器 代码 表示 。 要 将 目标 文件 组 合成 可 执行 文件 ， 必 须 将 它们 
“链接 ”在 一 起 。 这 是 通过 第 三 行 gcc -o hw hw.o helper.o) 完成 
的 。 在 这 种 情况 下 ，gcc 看 到 指定 的 输入 文件 不 是 源 文件 〈.c) ， 而 是 
目标 文件 〈.o) ， 因 此 直接 跳 到 最 后 一 步 ， 调 用 链接 编辑 器 1d 将 它们 
链接 到 一 起 ， 得 到 单个 可 执行 文件 。 由 于 它 的 功能 ， 这 行 通常 被 称 为 
“链接 行 ”， 并 且 可 以 指定 特定 的 链接 命令 ， 例 如 -lm。 类 似 地 ， 仅 在 
编译 阶段 需要 的 标志 ， 诸 如 -Wall1 和 -0， 就 不 需要 包含 在 链接 行 上 ， 只 
是 包含 在 编译 行 上 。 














当然 ， 你 可 以 在 一 行 中 为 gcc 指 定 所 有 C 源 文件 〈gcc -Wall -0 -o hw 
hw.c helper.c) ， 但 这 需要 系统 重新 编译 每 个 源 代 码 文件 ， 这 个 过 程 
可 能 很 耗 时 。 通 过 单独 编译 每 个 源 文件 ， 你 只 需 重 新 编译 编辑 修改 过 
的 文件 ， 从 而 节省 时 间 ， 提 高 工作 效率 。 这 个 过 程 最 好 由 男 一 个 程序 
make 来 管理 ， 我 们 接 下 来 介绍 它 





E.6 Makefile 文件 





程序 make 让 你 自动 化 大 部 分 构建 过 程 ， 因 此 对 于 任何 认真 的 程序 (和 
程序 员 ) 来 说 ， 都 是 一 个 至 关 重 要 的 工具 。 来 看 一 个 简单 的 例子 ， 它 
保存 在 名 为 Makefile 的 文件 。 


要 构建 程序 ， 只 需 输 入 : 


prompt> make 


这 会 (默认) 查找 Makefile 或 makefile， 将 其 作为 输入 (你 可 以 用 标 
志 指 定 不 同 的 makefile， 阅 读 手册 页 ， 找 出 是 哪个 标志 ) 。gmake 是 
make 的 gnu 版 本 ， 比 传统 的 make 功 能 更 多 ， 所 以 我 们 将 在 下 面 的 部 分 中 
重点 介绍 它 〈 尽 管 我 们 互 换 使 用 这 两 个 词 ) 。 这 些 讨论 大 多 数 都 基于 
gmake 的 info 页 面 ， 要 了 解 如 何 查 找 这 些 页 面 ， 请 参阅 “E. 8 文档 ”部 
分 。 另 外 请 注意 : 在 Linux 系 统 上 ，gmake 和 make 是 一 样 的 。 


hw: hw.o helper.o 
gcc -oOo hw hw.o helper.o -lm 


hw.o: hw.c 
gcc -0O -Wall -c hw.c 


helper.o: helper.c 
gcc -0 -Wall -c helper.c 





clean: 
rm -f hw.o helper.o hw 


Makefile 基 于 规则 ， 这 些 规则 决定 需要 发 生 的 事情 。 规 则 的 一 般 形式 
日 
AE: 





target: prerequisitel prerequisite2 ... 
commandl1 
command2 











target (目标 ) 通常 是 程序 生成 的 文件 的 名 称 。 目 标的 例子 是 可 执行 
文件 或 目标 文件 。 目 标 也 可 以 是 要 执行 的 操作 的 名 称 ， 例 如 在 我 们 的 
示例 中 为 “clean”。 


prerequisite (先决 条 件 ) 是 用 于 生成 目标 的 输入 文件 。 目 标 通常 依 
赖 于 几 个 文件 。 例 如 ， 要 构建 可 执行 文件 hw， 需 要 首先 构建 两 个 目标 
文件 : hw. o 和 helper. o。 


最 后 ，command (命令 ) 是 一 个 执行 的 动作 。 一 条 规则 可 能 有 多 个 命 
令 ， 每 个 命令 都 在 自己 的 行 上 。 重 要 提示 : 必须 在 每 个 命令 行 的 开头 
放 一 个 制 表 符 ! 如 果 你 只 放空 格 ，make 会 打印 出 一 些 含糊 的 错误 信息 
并 退出 。 


通常 ， 命 令 在 具有 先决 条 件 的 规则 中 ， 如 果 任 何 先决 条 件 发 生 更 改 ， 
就 要 重新 创建 目标 文件 。 但 是 ， 为 目标 指定 命令 的 规则 不 需要 先决 条 
0 
决 条 件 。 


回 到 我 们 的 例子 ， 在 执行 make 时 ， 大 致 工作 如 下 : 首先 ， 看 到 目标 
hw， 并 且 意 识 到 要 构建 它 ， 它 必须 具备 两 个 先决 条 件 ，hw.o 和 
helper. 0。 因 此 ，hw 依 赖 于 这 两 个 目标 文件 。 然 后 ，Make 将 检查 每 个 
目标 。 在 检查 hw. o 时 ， 看 到 它 取 决 于 hw. c。 这 是 关键 如果 hw. c 最 近 
被 修改 ， 但 hw. o 没 有 被 创建 ，make 会 知道 hw. o 已 经 过 时 ， 应 该 重新 生 
成 。 在 这 种 情况 下 ， 会 执行 命令 行 gcc -0 -Wall -c hw.c， 生 成 
hw.o。 因 此 ， 如 果 你 正在 编译 大 型 程序 ，make 会 知道 哪些 目标 文件 需 
要 根据 其 依赖 项 重新 生成 ， 并 且 只 会 执行 必要 的 工作 来 重新 创建 可 执 
行文 件 。 另 外 请 注意 ， 如 果 hw. o 根 本 不 存在 ， 也 会 被 创建 。 


继续 ， 基 于 上 面 定义 的 相同 标准 ，helper. o 也 会 重新 生成 或 创建 。 当 
两 个 目标 文件 都 已 创建 时 ，make 现 在 可 以 执行 命令 来 创建 最 终 的 可 执 
行文 件 ， 然 后 返回 并 执行 以 下 操作 : gcc -o hw hw.o helper.o -lm。 


到 日 前 为 止 ， 我们 一 直 没 提 makefile 中 的 clean 目 标 。 


























要 使 用 它 ， 必 须 明确 提出 要 求 ， 键 入 以 下 代码 : 


prompt> make clean 


这 会 在 命令 行 上 执行 该 命令 。 因 为 clean 目 标 没有 先决 条 件 ， 所 以 输入 
make clean 将 导致 命令 被 执行 。 在 这 种 情况 下 ，clean 目 标 用 于 删除 目 
标 文 件 和 可 执行 文件 ， 如 果 你 希望 从 头 开 始 重 建 整个 程序 ， 就 非常 方 


O 


现在 你 可 能 会 想 ，“ 好 吧 ， 这 似乎 没 问 题 ， 但 这 些 makefile 确 实 很 及 
烦 ! ”你 说 得 对 一 一 如 果 它 们 总 是 这 样 写 的 话 。 幸 运 的 是 ， 有 很 多 快 
捷 方 式 ， 让 使 用 更 容易 。 例 如 ， 这 个 makefile 具 有 相同 的 功能 ， 但 用 
起 来 更 好 : 

specify all source files here 


SRCS = hw.c helper.c 
specify target here (name of executable) 








TARG = hw 
specify compiler, compile flags, and needed libs 
CC = gcc 
OPTS = -Wall -0O 
LIBS = -lm 


this translates .c files in src list to .o's 
OBJS = $ (SRCS: .c=.0) 





all is not really needed, but is used to generate the target 
all: $ (TARG) 








this generates the target executabl 
$ (TARG) : $ (OBJS) 
$(CC) -o $(TARG) $ (OBJS) $ (LIBS) 





# this is a generic rule for .Oo files 
9 
站 


$(CC) $ (OPTS) -c $< -o $@ 


# and finally, a clean line 
clean: 
rm -f 3S(OBJS) $ (TARG) 


虽然 我 们 不 会 详细 介绍 make 语 法 ， 但 如 你 所 见 ， 这 个 makefile 可 以 让 
生活 更 轻松 一 些 。 例 如 ， 它 允许 你 轻松 地 将 新 的 源 文 件 添加 到 构建 
中 ， 只 需 将 它们 加 入 makefile 顶 部 的 SRCS 变 量 即 可 。 你 还 可 以 通过 更 
改 TARG 行 轻松 更 改 可 执行 文件 的 名 称 ， 并 且 可 以 轻松 修改 指定 编译 
器 ， 标 志和 库 。 














关于 make 的 最 后 一 句 话 : 找 出 目标 的 先决 条 件 并 非 总 是 很 容易 ， 特 别 
是 在 大 型 复杂 程序 中 。 宫 不 奇怪 ， 有 另 一 种 工具 可 以 帮助 解决 这 个 问 
题 ， 称 为 makedepend。 目 己 阅 读 它 ， 看 看 是 否 可 以 将 它 合 并 到 一 个 
makefile 中 。 





E.7 调试 


最 后 ， 在 创建 了 良好 的 构建 环境 和 正确 编译 的 程序 之 后 ， 你 可 能 会 发 
现 程序 有 问题 。 解 决 问 题 的 一 种 方法 是 认真 思考 一 一 这 种 方法 有 时 会 
成 功 ， 但 往往 不 会 。 问 题 是 缺乏 信息 。 你 只 是 不 知道 程序 中 到 底 发 生 
了 什么 ， 因 此 无 法 和 弄 清 楚 为 什么 它 没 有 按 预 期 运行 。 幸 运 的 是 ， 有 某 
种 帮助 工具 : gdb，GNU 调 试 器 。 


将 以 下 错误 代码 保存 在 buggy. c 文 件 中 ， 然 后 编译 成 可 执行 文件 。 


#include <stdio.h> 








struct Data { 
int Xs 
}; 
int 
main(int argc, char *argv[]) 
{ 
struct Data *p = NULL; 
Printf ("Sd\n™;, P=>): 
} 


在 这 个 例子 中 ， 主 程序 在 变量 p 为 NULL 时 引用 它 ， 这 将 导致 分 段 错误 。 
当然 ， 这 个 问题 应 该 很 容易 通过 检查 来 解决 ， 但 在 更 复杂 的 程序 中 ， 
找到 这 样 的 问题 并 非 总 是 那么 容易 。 


要 为 调试 会 话 做 好 准备 ， 请 重新 编译 程序 ， 并 确保 将 -g 标 志 加 入 每 个 
编译 行 。 这 让 可 执行 文件 包含 额外 的 调试 信息 ， 这 些 信息 在 调试 会 话 
期 间 非常 有 用 。 另 外 ， 不 要 打开 优化 -0) 。 尽 管 这 可 能 也 行 ， 但 在 
调试 过 程 中 也 可 能 导致 困扰 。 


使 用 -g 重 新 编译 后 ， 你 就 可 以 使 用 调试 器 了 。 在 命令 提示 符 处 启动 
gdb， 如 下 所 示 : 














prompt> gdb buggy 


这 让 你 进入 与 调试 器 的 交互 式 会 话 。 请 注意 ， 你 还 可 以 使 用 调试 器 来 
检查 在 错误 运行 期 间 生 成 的 “核心 ”文件 ， 或 者 连 上 已 在 运行 的 程 
序 。 阅 读 文 档 以 了 解 更 多 相关 信息 。 


进入 调试 器 后 ， 你 可 能 会 看 到 以 下 内 容 : 


prompt> gdb buggy 

GNU gdb ... 

Copyright 2008 Free Software Foundation, Inc. 
(gdb) 








你 可 能 想 要 做 的 第 一 件 事 就 是 继续 运行 程序 。 这 只 需 在 gdb 命 令 提 示 符 
下 输入 run。 在 这 个 例子 中 ， 你 可 能 会 看 到 : 


(gdb) run 
Starting program: buggy 





Program received signal SIGSEGV, Segmentation fault. 
0x8048433 in main (argc=1, argv=0xbffff844) at buggy.cc:19 
19 printf("sSa\ nn,, p=>x)}» 


从 示例 中 可 以 看 出 ， 在 这 种 情况 下 ，gdb 会 立即 指出 问题 发 生 的 位 置 。 
在 我 们 葡 试 引用 p 的 行 中 产生 了 “分 段 错误 ”。 这 就 意味 着 我 们 访问 了 
一 些 我 们 不 应 该 访问 的 内 存 。 这 时 ， 精 明 的 程序 员 可 以 检查 代码 ， 然 
后 说 “ 啊 哈 ! 肯定 是 p 没 有 指向 任何 有 效 的 地 址 ， 因 此 不 应 该 引 
用 ! ”， 然 后 继续 修复 该 问题 。 


但 是 ， 如 果 你 不 知道 发 生 了 什么 ， 可 能 想 要 检查 一 些 变 量 。gdb 人 允许 你 
在 调试 会 话 期 间 以 交互 方式 执行 此 操作 。 


gdb) print p 
= (Data *) 0x0 





通过 使 用 print 原 语 ， 我 们 可 以 检查 p， 并 看 到 它 是 指向 Data 类 型 结构 
的 指针 ， 并 且 它 当前 设置 为 NULL( 即 零 ， 即 十 六 进 制 零 ， 此 处 显示 为 
“OQx0” ) 





最 后 ， 你 还 可 以 在 程序 中 设置 断 点 ， 让 调试 器 在 某 个 函数 中 停止 程 
序 。 执 行 此 操作 后 ， 单 步 执 行 〈 一 次 一 行 ) ， 看 看 发 生 了 什么 ， 这 通 
常 很 有 用 。 

(gdb) break main 

Breakpoint 1 at 0x8048426: file buggy.cc, line 17. 


(gdb) run 
Starting program: /homes/hacker/buggy 


Breakpoint 1, main (argc=1, argv=0xbffff844) at buggy.cc:17 


于 struct Data xp = NULL; 
(gdb) next 

19 printf ("Sd\n", p=>x)? 
(gdb) 





Program received signal SIGSEGV, Segmentation fault. 
0x8048433 in main (argc=1, argv=0xbffff844) at buggy.cc:19 
19 BELNtE( "SadNn"; Bau)s 


在 上 面 的 例子 中 ， 在 main0 函数 中 设置 了 汤 点 。 因 此 ， 妆 我 们 运行 程 
序 时 ， 调 试 器 几乎 立即 停止 在 main 执 行 。 在 示例 中 的 该 点 处 ， 发 出 
“next” 命 令 ， 它 将 执行 下 一 行 源 代码 级 指令 。“next” 和 “step” 
都 是 继续 执行 程序 的 有 用 方法 一 一 在 文档 中 阅读 ， 以 获取 更 多 详细 信 


向 [21] 
4 O 〇 











这 里 的 讨论 真 的 对 gdb 不 公平 ， 它 是 丰富 而 灵活 的 调试 工具 ， 有 许多 功 
能 ， 而 不 只 是 这 里 有 限 篇 幅 中 描述 的 功能 。 在 闲暇 之 余 阅 读 更 多 相关 
信息 ， 你 将 成 为 一 名 专家 。 


E. 8 文档 


要 了 解 有 关 所 有 这 些 事情 的 更 多 信息 ， 你 必须 做 两 件 事 : 第 一 是 使 用 
这 些 工 具 ; 第 二 是 自己 阅读 更 多 相关 信息 。 了 人 解 更 多 关于 gcc、gmake 
和 gdb 的 一 种 方法 是 阅读 它们 的 手册 页 。 在 命令 提示 符 下 输入 man 
gcc、man gmake 或 man gdb。 你 还 可 以 使 用 man -k 在 手册 页 中 搜索 关键 
字 ， 但 这 并 非 总 如 人 意 。 谷 歌 搜 索 可 能 是 更 好 的 方法 。 


关于 手册 页 有 一 个 环 手 的 事情 : 如 果 有 多 个 名 为 XXX 的 东西 ， 输 入 
man XXX 义 可 能 不 会 得 到 你 想 要 的 东西 。 例 如 ， 如 果 你 正在 寻找 
kill 0 系统 调用 手册 页 ， 如 果 只 是 在 提示 符 下 键入 man kil1， 会 得 到 




















错误 的 手册 页 ， 因 为 有 一 个 名 为 kil1 的 命令 行程 序 。 手 册页 分 为 几 个 
部 分 〈section) ， 默 认 情 况 下 ，man 将 返回 找到 的 最 低层 部 分 的 手册 
页 ， 在 本 例 中 为 第 1 部 分 。 请 注意 ， 你 可 以 通过 查看 页 面 的 顶部 来 确定 
你 看 到 的 手册 页 : 如 果 看 到 kill1 (2) ， 就 知道 你 在 第 2 节 的 正确 手册 
页 中 ， 这 里 放 的 是 系统 调用 。 有 关 手 册页 的 每 个 不 同 部 分 中 存储 的 内 
容 ， 请 键入 man man 以 了 解 更 多 信息 。 另 外 请 注意 ，man -a kill 可 用 
于 遍历 名 为 “kill1” 的 所 有 手册 页 。 


手册 页 对 于 碍 找 许 多 内 容 非 常 有 用 。 特 别 是 ， 你 经 常 需要 查找 要 传递 
给 库 调 用 的 参数 ， 或 者 需要 包含 哪些 头 文 件 才能 使 用 库 调 用 。 上 所 有 这 
些 都 在 手册 页 中 提供 。 例 如 ， 如 果 查 找 open 0 系统 调用 ， 你 会 看 到 : 


SYNOPSIS 
#include <sys/types.h> 
#include <sys/stat.h> 
#include <fcntl.nhn> 
































int open (const char *path, int oflag, /* mode t mode */...); 


这 告诉 你 包含 头 文件 sys/types.h、sys/stat.h 和 fcntl.h， 以 便 使 用 
open 调 用 。 它 还 告诉 你 要 传递 给 open 的 参数 ， 即 名 为 path 的 字符 串 和 
整数 标志 oflag， 以 及 指定 文件 模式 的 可 选 参 数 。 如 果 你 需要 链接 某 个 
库 以 使 用 该 调用 ， 这 里 也 会 告诉 你 。 


需要 一 些 努 力 才能 有 效 使 用 手册 页 。 它 们 通常 分 为 许多 标准 部 分 。 主 
体 将 描述 如 何 传 递 不 同 的 参数 ， 以 使 函数 具有 不 同 的 行为 。 


一 个 特别 有 用 的 部 分 是 手册 页 的 RETURN VALUES 部 分 ， 它 告诉 你 成 功 或 
失败 时 函数 将 返回 什么 。 再 次 引用 open () 的 手册 页 : 


RETURN VALUES 
Upon successful completion, the open() function opens the 
file and return a non-negative integer representing the 
lowest numbered unused file descriptor. Otherwise, -1 is 
returned, errno is set to indicate the error, and no files 
are created or modified. 

















因此 ， 通 过 检查 open 的 返回 值 ， 你 可 以 看 到 是 否 成 功 打 开 。 如 果 没 
有 ，open〈 以 及 许多 标准 库 函 数 ) 会 将 一 个 名 为 errno 的 全 局 变量 设置 
为 个 什 ， 来 告诉 你 错误 。 有 关 更 多 详细 信息 ， 请 参见 手册 页 的 
ERRORS 部 分 。 














你 可 能 还 想 做 一 件 事 ， 即 查找 未 在 手册 页 本 身 中 指定 的 结构 的 定义 。 
例如 ，gettimeofday () 的 手册 页 有 以 下 概要 : 


SYNOPSIS 
#include <sys/time .h> 
int gettimeofdqay (Struct timeval *restrict tp, 
void *restrict 七 2P) ， 





在 这 个 页 面 中 ， 你 可 以 看 到 时 间 被 放 入 timeval 类 型 的 结构 中 ， 但 是 手 
册页 可 能 不 会 告诉 你 这 个 结构 有 哪些 字段 ! 〈 在 这 个 例子 中 ， 它 包含 
在 内 ， 但 你 可 能 并 非 总 是 如 此 幸运 ) 因此 ， 你 可 能 不 得 不 寻找 它 。 所 
有 包含 文件 都 位 于 /usrV/include 目 录 下 ， 因 此 你 可 以 用 grep 这 样 的 工 
有 具 来 查找 它 。 例 如 ， 你 可 以 键入 : 


prompt> grep "struct timeval’ /usr/include/sys/*.h 





这 让 你 在 /usr/include/sys 中 以 .h 结 尾 的 所 有 文件 中 查找 该 结构 的 定 
0 这 可 能 不 一 定 有 效 ， 因 为 包含 文件 可 能 包括 在 别处 的 
x 文 O 


更 好 的 方法 是 使 用 你 可 以 使 用 的 工具 ， 即 编译 器 。 编 写 一 个 包含 头 文 
件 time.ph 的 程序 ， 假 设 名 为 main.c。 然 后 ， 使 用 编译 器 调用 预 处 理 
器 ， 而 不 是 编译 它 。 预 处 理 器 处 理 文 件 中 的 所 有 指令 ， 例 如 #define 指 
令 和 #include 指 令 。 为 此 ， 请 键入 gcc -E main.c。 结 果 是 一 个 C 文 
件 ， 其 中 包含 所 有 需要 的 结构 和 原型 ， 包 括 timeval 结 构 的 定义 。 


可 能 还 有 找到 这 些 东 西 的 更 好 方法 : google。 你 应 该 总 是 google 那 些 


你 不 了 解 的 东西 一 一 只 要 通过 查找 就 可 以 学 到 很 多 东西 ， 这 令 人 恢 
奇 ! 


info 页 面 








info 页 面 在 寻找 文档 方面 也 非常 有 用 ， 它 为 许多 6NU 工 具 提 供 了 更 详细 
的 文档 。 你 可 以 通过 运行 info 程 序 或 通过 emacs (黑客 的 首选 编辑 器 ) 
执行 Meta-x info 来 访问 info 页 面 。 像 gcc 这 样 的 程序 有 数 百 个 标志 ， 
其 中 一 些 标志 非常 有 用 。gmake 还 有 许多 功能 可 以 改善 你 的 构建 环境 。 


最 后 ， gdb 是 一 个 非常 复杂 的 调试 器 。 阅读 man 和 info 页 面 ， 尝试 以 前 
没有 尝试 过 的 功能 ， 成 为 编程 工具 的 强大 用 户 。 


E. 9 推荐 阅读 





除了 man 和 info 页 面 之 外 ， 还 有 许多 有 用 的 书籍 。 请 注意 ， 许 多 此 类 信 
居 可 在 线 免费 获取 ， 然 而 ， 有 了 时 书本 形式 的 东西 似乎 更 容易 学 习 。 
外 ， 总 是 在 0 Reilly 书 籍 中 寻找 你 感 兴趣 的 主题 ， 它 们 几乎 总 是 高 上 
质 的 。 


Brian Kernighan 和 Dennis Ritchie 编 写 的 《The C Programming 
Language》， 是 最 权威 的 C 语 言 图 书 。 


DHd0m 


酝 


Andrew 0ram 和 Steve Talbott 编写 的 《Managing Projects with 
make》。 关 于 make 的 价格 公道 的 小 书 。 


Richard M，Stallman 和 Roland H. Pesch 编 写 的 《Debugging with 
GDB: The GNU Source-Level Debugger》。 关 于 使 用 GDB 的 一 本 小 书 。 


W. Richard Stevens 和 Steve Rago 编 写 的 《Advanced Programming in 
the UNIX Environment》。Stevens 写 了 一 些 优秀 的 图 书 ， 这 是 UNIX 黑 
客 必 读 的 书 。 他 还 有 一 套 关 于 TCP/IP 和 套 接 字 编程 的 好 书 。 


Peter Van der Linden 编 写 的 《Expert C Programming》。 上 面 关 于 
编译 器 等 的 许多 有 用 提示 ， 都 直接 来 自 这 里 。 读 这 本 书 ! 虽然 有 点 过 
时 ， 但 这 本 书 很 精彩 ， 令 人 大 开眼 界 。 





[1]， 请 注意 ，fork () 是 一 个 系统 调用 ， 而 不 仅仅 是 一 个 库 函 数 。 但 
入 操作 系统 。 


有 2 特别 是 ， 你 可 以 在 使 用 gdb 进 行 调试 时 使 用 交互 式 的 “help” 命 
等 


附录 F 实验 室 : 系统 项 目 


本 章 介绍 了 系统 项 目的 一 些 想法 。 我 们 通常 在 为 期 15 周 的 学 期 中 完成 6 
一 7 项 目 ， 这 意味 着 每 两 周 左 右 一 个 项 目 。 前 几 个 通常 由 学 生 独 立 完 
成 ， 后 儿 个 通常 是 两 人 小 组 。 


每 个 学 期 ， 项 目 都 遵循 同样 的 大 纲 。 然 而 ， 我 们 会 改变 细节 ， 让 它 保 
持 有 趣 ， 这 让 跨 学 期 的 代码 “共享 ”更 有 难度 〈 并 非 任何 人 都 会 这 样 
做 ! ) 。 我 们 还 使 用 Moss 工 具 来 检查 这 种 “共享 ”。 


至 于 评分 ， 我 们 尝试 了 许多 不 同 的 方法 ， 每 种 方法 都 有 自己 的 优点 和 
缺点 。 演 示 很 有 趣 但 很 耗 时 。 目 动 化 测试 脚本 耗 时 较 少 ， 但 需要 非 季 
谨慎 ， 才 能 让 它们 仔细 测试 有 趣 的 角落 情况 。 碍 看 本 书 的 配套 网 页 ， 
了 解 有 关 这 些 项 目的 更 多 详情 。 如 末 你 想 要 自动 化 测试 脚本 ， 我 们 很 


乐意 分 享 。 











F. 1 介绍 项 目 


第 一 个 项 目 是 系统 编程 的 介绍 。 典 型 的 作业 是 编写 sort 实 用 程序 的 一 
些 变 体 ， 加 上 不 同 的 约束 。 例 如 ， 排 序 文 本 数据 ， 排 序 二 进 制 数据 和 
其 他 类 似 项 目 都 是 有 意义 的 。 要 完成 项 目 ， 必 须 熟 悉 一 些 系统 调用 
(及 其 返回 错误 代码 ) ， 使 用 一 些 简单 的 数据 结构 ， 没 有 太 多 其 他 内 


pe 


容 。 


F.2 UNIX Shell 


在 这 个 项 目 中 ， 学 生 构 建 了 UNIX shell 的 变 体 。 学 生 将 学 习 进 程 管 
理 ， 以 及 管道 和 重 定 向 等 神秘 事物 的 实际 工作 方式 。 变 体 包 括 不 寻常 


的 功能 ， 例 如 一 个 重 定向 符号 ， 它 通过 gzip 压 缩 输 出 。 吃 一 种 变 体 是 
批 处 理 模式 ， 它 允许 用 户 批量 处 理 一 些 请 求 ， 然 后 执行 它们 ， 可 能 使 
用 不 同 的 调度 规则 。 





F. 3 内 存 分 配 库 


该 项 目 通 过 构建 一 个 蔡 代 的 内 存 分 配 库 〈( 类 似 malloc ) 和 freeW ， 但 
具有 不 同 的 名 称 ) ， 来 探索 如 何 管理 一 块 内 存 。 该 项 目 教会 学 生 如 何 
使 用 mmap () 获取 一 大 块 匿 名 内 存 ， 然 后 仔细 使 用 指针 ， 以 构建 一 个 简 
单 《或 可 能 较 复 杂 ) 的 空闲 列表 来 管理 空间 。 变 体 包 括 : 最 优 /最 差 匹 
配 、 伙 伴 算法 和 各 种 其 他 分 配器 。 


F.4 并 发 简介 





该 项 目 引 入 了 POSIX 线 程 的 并 发 编程 。 构 建 一 些 人 简单 的 线程 安全 库 : 列 
表 、 哈 希 表 和 一 些 更 复杂 的 数据 结构 ， 是 向 现实 代码 添加 锁 的 好 练 
习 。 测 量 粗 粒度 与 细 粒 度 锁 方案 的 性 能 。 变 体 就 是 关注 不 同 的 〈 也 许 
更 复杂 的 ) 数据 结构 。 








F.5 并 发 Web 服 务 器 





该 项 目 探索 在 实际 应 用 中 使 用 并 发 性 。 学 生 使 用 一 个 简单 的 Web 服 务 需 
(或 构建 一 个 ) ， 并 向 其 添加 一 个 线程 池 ， 以 便 同 时 处 理 请 求 。 线 程 
池 应 该 是 固定 大 小 的 ， 并 使 用 生产 者 /消费 者 有 界 缓冲 区 ， 将 请 求 从 主 
线程 传递 到 固定 的 工作 线程 池 。 了 解 如 何 使 用 线程 、 锁 和 条 件 变量 来 
构建 真实 服务 器 。 变 体 包 括 线 程 的 调度 策略 。 





F.6 文件 系统 检查 器 


该 项 目 探讨 了 磁盘 上 的 数据 结构 及 其 一 致 性 。 学 生 构 建 一 个 简单 的 文 
件 系 统 检查 器 。debugfs 工 具 可 以 在 Linux 上 用 于 制作 真正 的 文件 系统 
了 映像， 检查 它们 ， 确 保 一 切 都 正常 。 为 了 增加 难度 ， 还 要 修复 发 现 的 
J 变 体 关 注 不 同类 型 的 问题 : 指针、 链接 计数 、 则 接 块 的 使 


F.7 文件 系统 碎片 整理 程序 


该 项 目 探讨 了 磁盘 上 的 数据 结构 及 其 性 能 影响 。 该 项 目 应 该 为 学 生 提 
供 一 些 特定 的 文件 系统 映像 ， 它 有 已 知 的 雁 片 问题 。 然 后 ， 学 生 应 该 
检查 该 映像 ， 并 寻找 未 按 顺 序 排列 的 文件 。 写 出 一 个 “消除 碎片 ”的 
新 映像 来 修复 这 个 问题 ， 可 能 要 报告 一 些 统计 信息 。 





F.8 并 发 文件 服务 器 


该 项 目 结合 了 并 发 和 文件 系统 ， 甚 至 还 有 一 些 网 络 和 分 布 式 系统 。 学 
生 构 建 一 个 简单 的 并 发 文件 服务 器 。 该 协议 应 该 看 起 来 像 NFS， 包 括 查 
找 、 读 取 、 写 入 和 状态 信息 。 将 文件 存储 在 单个 磁盘 映像 (设计 为 一 
个 文件 ) 中 。 变 体 是 多 种 多 样 的 ， 包 括 不 同 建议 的 磁盘 格式 和 网 络 协 
议 。 





附录 G ”实验 室 : xv6 项 目 


本 章 介 绍 了 与 xv6 内 核 相 关 的 项 目的 一 些 想法 。 该 内 核 可 从 友 省 理工 学 
院 获 得 ， 玩 起 来 很 有 趣 。 完 成 这 些 项 目 还 可 以 使 课堂 上 的 内 容 与 项 目 
更 直接 相关 。 这 些 项 目 (可 能 除了 前 面 两 个 ) 通常 是 结对 完成 的 ， 这 
让 上 采 着 内 核 代码 的 艰巨 任务 变 得 更 加 容易 。 


G. 1 简介 项 目 


简介 项 目 为 xv6 添 加 一 个 简单 的 系统 调用 。 可 能 存在 许多 不 同 的 任务 ， 
包括 用 一 个 系统 调用 来 计算 已 发 生 的 系统 调用 次 数 〈 每 次 系统 调用 计 
数 一 次 ) ， 或 其 他 信息 收集 的 调用 。 学 生 将 学 习 如 何 实际 进行 系统 调 
用 。 


G. 2 ”进程 和 调度 


学 生 构建 比 默认 的 轮 询 更 复杂 的 调度 程序 。 可 能 存在 许多 不 同 的 策 
略 ， 包 括 彩 票 调度 程序 或 多 级 反馈 队列 。 学 生 将 学 习 调 度 程 序 的 实际 
工作 方式 ， 以 及 上 下 文 切换 的 方式 。 一 个 附加 的 小 任务 还 要 求学 生 弄 
清楚 ， 如 何在 退出 时 让 进程 返回 正确 的 错误 代码 ， 并 能 够 通过 wait () 
系统 调用 访问 该 错误 代码 。 





G.3 虚拟 内 存 简 介 


基本 思想 是 添加 一 个 新 的 系统 调用 ， 给 定 一 个 虚拟 地 址 ， 返 回 已 翻译 
的 物理 地 址 (或 报告 该 地 址 无 效 ) 。 这 让 学 生 可 以 看 到 虚拟 内 存 系 统 
如 何 设置 页 表 而 无 需 做 太 多 艰 兰 的 工作 。 另 一 个 可 能 的 项 目 是 探索 如 
何 改动 xv6， 让 空 指针 引用 会 产生 错误 。 


6.4 写 时 复制 映射 


该 项 目 为 xv6 增 加 轻 量 级 fork 0 的 能 力 ， 名 为 vfork 0) 。 这 个 新 调用 不 
古 简 单 地 复制 映射 ， 而 是 将 写 时 复制 映射 设置 为 共享 面 。 在 引用 这 样 
的 页 面 时 ， 内 核 必须 相应 地 创建 真实 副本 并 更 新 页 表 。 


G.5 内 存 映射 








另 一 个 虚拟 内 存 项 目 是 添加 某 种 形式 的 内 存 映射 文 件 。 可 能 最 简单 的 
方法 ， 是 从 可 执行 文件 中 惰性 加 载 代码 页 。 更 全 面 的 方法 ， 是 构建 
I 以 便 在 页 故障 时 从 磁盘 换 入 
从 出 。 





G.6 内 核 线 程 


该 项 目 探 讨 如 何 为 xzv6 添 加 内 核 线 程 。clone () 系统 调用 的 操作 与 fork 
类 似 ， 但 使 用 相同 的 地 址 空间 。 学 生 必 须 乔 清楚 如 何 实现 这 样 的 调 
用 ， 以 及 如 何 创 建 真 正 的 内 核 线程 。 学 生还 应 该 在 其 上 构建 一 个 小 的 
线程 库 ， 提 供 简 单 的 锁 。 


G. 7 高 级 内 核 线程 


学 生 在 其 内 核 线程 之 上 构建 一 个 完整 的 线程 库 ， 添 加 不 同类 型 的 锁 
( 自 旋 锁 ， 在 处 理 器 不 可 用 时 休眠 的 锁 〉 以 及 条 件 变 量 。 还 要 添加 必 
需 的 内 核 支 持 。 


G.8 基于 范围 的 文件 系统 


第 一 个 文件 系统 项 目 为 基本 文件 系统 添加 了 一 些 简 单 的 功能 。 对 于 
EXTENT 类 型 的 文件 ， 学 生 将 inode 更 改 为 存储 范围 《〈 即 指针 一 长 度 对 ) 
而 不 仅仅 是 指针 。 作 为 文件 系统 的 相对 简单 的 介绍 。 


6.9 快速 文件 系统 


学 生 将 基本 的 xv6 文 件 系统 转换 为 Berkeley 快 速 文件 系统 (FFS) 。 学 
生 构 建 一 个 新 的 mkfs 工 具 ， 引 入 块 组 和 新 的 块 分 配 策略 ， 并 构建 大 文 
件 异 常 。 在 更 深层 次 上 理解 文件 系统 工作 原理 的 基础 知识 。 


G. 10 日 志文 件 系统 








学 生 为 xv6 添 加 了 一 个 基本 的 日 志 层 。 对 于 每 次 写 入 文件 ， 日 志 FS 会 批 
量 处 理 所 有 脏 块 ， 并 在 磁盘 日 志 中 ， 为 待 写 入 的 更 新 添加 一 条 记录 ， 
然后 再 修改 原来 位 置 的 块 。 通 过 引入 崩 尝 点 并 展示 文件 系统 始终 恢复 
到 一 致 状态 ， 学 生 证 明 其 系统 的 正确 性 。 


G. 11 文件 系统 检查 器 


学 生 为 xv6 文 件 系统 构建 一 个 简单 的 文件 系统 检查 程序 。 学 生 将 了 解 文 
件 系统 的 一 致 性 ， 以 及 如 何 检查 文件 系统 。 


